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Introduction to Machine Learning 


本 书 讨论 了 机 器 学 习 在 统计 学 、 模 式 识别 、 神 经 网 络 、 人 工 智 能 、 信 号 处 理 等 不 同 领域 
的 应 用 。 其 中 涵盖 的 内 容 比 较 全面 ， 且 易于 学 习 和 掌握 。 主 要 内 容 包括 : 监督 学 习 、 贝 叶 斯 
决策 理论 、 参 数 方法 、 多 元 方法 、 维 度 归 约 、 非 参数 方法 、 决 策 树 、 线 性 判别 式 、 多 层 感知 
器 、 隐 马尔 可 夫 模 型 、 组 合 多 学 习 器 以 及 增强 学 习 等 。 可 作为 高 等 院 校 计算 机 相关 专业 高 年 
级 本 科 生 和 研究 生 的 教材 ， 也 可 供 研究 机 器 学 习 方 法 的 技术 人 员 参 考 。 
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出 版 者 的 话 | 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 分 社 较 早 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 华 章 分 社 就 
将 工作 重点 放 在 了 遵 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson ， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良好 
的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brain W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry 
L. Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 庙 力 衷 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ， 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算机 科学 丛书 ”已 经 出 版 了 近 两 百 
个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 。 
其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深 
化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 
而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 分 社 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 :www.hzbook.com 


电子 邮件 ，hzjsj@hzbook.com 
联系 电话 : (010) 88379604 
联系 地 址 ， 北 京 市 西城 区 百 万 庄 南 街 1 号 prm 


邮政 编码 ，100037 华章 教育 
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自从 有 计算 机 以 来 ， 人 们 就 希望 计算 机 能 够 学 习 。 然 而 ， 机 器 学 习 真 正 取得 实质 性 进 
展 ， 能 够 成 功 地 解决 一 些 实际 问题 ， 并 最 终 成 为 一 个 学 科 分 支 还 是 近 20 余年 的 事 。 

对 于 许多 问题 ， 我 们 的 前 人 和 先行 者 已 经 知道 如 何 求解 。 例 如 ， 欧 几 里 德 告诉 我 们 可 以 
用 轧 转 相 除法 求 两 个 整数 的 最 大 公约 数 ; Dijkstra 告诉 我 们 如 何 有 效 地 求 两 点 之 间 的 最 短路 
径 ; Hoare 向 我 们 展示 了 怎样 将 杂乱 无 章 的 对 象 快速 排序 …… 对 于 这 些 问题 ， 我 们 清楚 地 知 
道 求解 步骤 。 因 此 ， 让 计算 机 求解 这 些 问题 只 需要 设计 算法 和 数据 结构 、 进 行 编程 ， 而 不 需 
要 让 计算 机 学 习 。 

还 有 一 些 事情 ， 人 们 可 以 轻而易举 地 做 好 ， 但 是 却 无 法 解释 清楚 我 们 是 如 何 做 的 。 例 
如 ， 尽 管 桌子 千差万别 、 用 途 各 异 ， 但 是 我 们 一 眼 就 能 看 出 某 个 物体 是 否 是 桌子 ; 尽管 不 同 
的 人 的 手写 阿拉 伯 数 字 大 小 不 一 、 笔 画 粗细 不 同 ， 但 是 我 们 还 是 可 以 轻易 识别 一 个 数字 是 不 
是 8; 尽管 声音 时 大 时 小 、 有 时 可 能 还 有 点 沙哑 ， 但 是 我 们 还 是 可 以 不 费力 气 地 听 出 熟人 的 
声音 。 诸 如 此 类 的 例子 不 胜 枚 举 。 对 于 这 些 问题 我们 不 知道 求解 步骤 。 因 此 ， 让 计算 机 来 
做 这 些 事 就 需要 让 计算 机 学 习 。 

我 们 知道 桌子 不 是 木材 和 各 种 材料 的 随机 堆砌 ， 手 写 数字 不 是 像素 的 随机 分 布 ， 熟 人 的 
声音 也 不 是 各 种 声波 的 随机 混合 。 现 实 世界 总 是 有 规律 的 。 机 器 学 习 正 是 从 已 知 实例 中 自动 
发 现 规律 ， 建 立 对 未 知 实例 的 预测 模型 ; 根据 经 验 不 断 提高 ， 不 断 改进 预测 性 能 。 

这 是 关于 机 器 学 习 这 一 主题 全 面 论述 的 教科 书 ， 适 合作 为 高 等 院 校 计算 机 相关 专业 高 年 
级 本 科 生 和 研究 生机 器 学 习 入 门 课程 的 教材 。 该 书 涵盖 了 监督 学 习 、 贝 叶 斯 决策 理论 、 参 数 
方法 、 多 元 方法 、 维 度 归 约 、 聚 类 、 非 参数 方法 、 决 策 树 、 线 性 判别 式 、 多 层 感知 器 、 局 部 
模型 、 隐 马尔 可 夫 模型 、 分 类 算法 评估 和 比较 、 组 合 多 学 习 器 以 及 增强 学 习 。 作 者 对 来 自 统 
计 学 、 模 式 识别 、 神 经 网 络 、 人 工 智 能 、 信 号 处 理 、 控 制 和 数据 挖掘 等 不 同 领域 的 机 器 学 习 
问题 和 学 习 方 法 进行 了 统一 论述 。 

现在 ， 学 习 的 本 质 还 不 十 分 清楚 。 然 而 ， 关 于 学 习 的 理论 认识 已 开始 逐步 形成 ， 已 经 建 
立 起 来 的 一 些 机 器 学 习 方法 已 经 成 功 地 解决 了 许多 实际 问题 。 我 们 能 够 从 这 本 书 中 学 习 机 器 
F, 发现 机 器 学 习 的 新 方法 ， 不 断 提高 对 学 习 本 质 的 认识 。 

全 书 共 分 16 章 和 一 个 附录 。 管 红 英 翻译 了 第 1 ~6 章 ， 牛 常 勇 翻 译 了 第 13 ~16 章 ， 范 
明 翻 译 了 其 余部 分 ， 并 对 全 书 译文 进行 了 修改 和 最 后 定稿 。 

本 书 的 翻译 得 到 了 原作 者 Ethem Alpaydin 教授 的 支持 。Ethem 教授 不 仅 为 中 文 版 写 序 ， 
而 且 还 耐心 地 解释 了 我 们 的 一 些 疑 问 。 在 此 ， 我 们 向 Ethem 教授 表示 感谢 。 

译文 中 的 错误 和 不 当 之 处 ， 敬 请 读者 朋友 指正 。 意 见 和 建议 请 发 至 mfan@ zzu. edu. cn, 
我 们 不 胜 感激 。 
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获得 好 想法 的 途径 是 与 有 才干 的 人 一 起 工作 ， 与 他 们 一 起 工作 也 是 一 种 乐趣 。Bogazici 
大 学 计算 机 工程 系 是 一 个 极 好 的 工作 场所 ， 在 我 写 这 本 书 时 ， 我 的 同事 们 为 我 提供 了 我 所 需 
要 的 所 有 支持 。 我 也 要 感谢 我 过 去 和 现在 的 学 生 ， 在 他 们 身上 ， 我 实际 检验 了 现在 写 进 这 本 
书 中 的 内 容 。 

在 写本 书 时 ， 我 得 到 了 土耳其 科学 院 青年 科学 家 奖励 计划 的 资助 (EATUBA- GEBIP/ 
2001-1-1) 。 

我 特别 感谢 Michael Jordan。 对 于 他 多 年 来 的 支持 和 最 近 对 本 书 的 支持 ， 我 深 表 感谢 。 
他 针对 本 书 大 体 组 织 和 第 1 章 所 给 出 的 建议 在 内 容 和 形式 上 都 大 大 改进 了 本 书 。Taner 
Bilgiç, Vladimir Cherkassky Tom Dietterich, Fikret Gürgen, Olcay Taner Yıldız 和 MIT 出 版 社 
的 未 留 名 审 稿 人 也 部 分 阅读 了 本 书 ， 并 提供 了 非常 宝贵 的 反馈 。 我 希望 他 们 在 注意 到 我 采纳 
了 他 们 的 建议 但 却 没有 特别 致谢 时 ， 能 够 体会 到 我 的 感激 之 情 。 当 然 ， 书 中 的 错误 和 不 足 应 
当 由 我 个 人 负责 。 

我 的 父母 信任 我 ， 我 感谢 他 们 永恒 的 爱 和 支持 。 无 论 我 何 时 需要 ，Sema Oktug 总 在 身 
边 ， 我 将 永远 感激 她 的 友谊 。 我 还 要 感谢 Hakan Unlu， 在 过 去 的 几 年 中 ， 我 们 无 数 次 讨论 了 
涉及 生活 、 字 宙 和 万 事 万 物 的 众多 主题 。 

本 书 使 用 Chris Manning 准备 的 LATEX 宏 排版 ， 对 此 我 很 感谢 他 。 我 要 感谢 MIT 出 版 社 
的 编辑 们 ， 以 及 Bob Prior, Valerie Geary, Kathleen Caruso, Sharon Deacon Warne, Erica 
Schultz 和 Emily Gutheinz， 感 谢 他 们 在 本 书 完成 期 间 的 不 断 支持 和 帮助 。 
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一 元 正 态 分 布 ， 均 值 为 ,方差 为 0 

单位 正 态 分 布 : NO, 1) 

d- 变 量 正 态 分 布 ， 均 值 向 量 为 hy， 协 方差 矩阵 为 


输入 

输入 数 : 输入 的 维度 

输出 

要 求 的 输出 

输出 数 (类 ) 

训练 实例 数 
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&(x|0) 
arg max,g(x | 0) 
arg minyg(x | 0) 
E(o|x) 
Ko |x) 
£(8|x) 


1(c) 
#{c} 
9, 


类 i 
训练 样本 

x 的 集合 ， 上 标 : 馆 取 1 到 和 

上 标 为 :的 输入 和 期 望 输出 的 有 序 对 的 集合 


x 的 函数 ， 其 定义 依赖 于 参数 集 6 
BRO, 关于 它 取 最 大 值 

参数 6，& 关于 它 取 最 小 值 

样本 X 上 具有 参数 9 的 误差 函数 
样本 X 上 具有 参数 0 的 似 然 函数 
样本 X 上 具有 参数 9 的 对 数 似 然 函 数 


如 果 。 为 真 ， 则 值 为 1!， 否 则 为 0 
< 为 真 的 元 察 数目 
Kronecker 6: 如 果 i=j， 取 1， 否则 取 0 
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机 器 学 习 使 用 实例 数据 或 过 去 的 经 验 训练 计算 机 ， 以 优化 性 能 标准 。 当 人 们 不 能 直接 编 
写 计算 机 程序 解决 给 定 的 问题 ， 而 是 需要 借助 于 实例 数据 或 经 验 时 ， 就 需要 学 习 。 一 种 需要 
学 习 的 情况 是 人 们 没有 专门 技术 ， 或 者 不 能 解释 他 们 的 专门 技术 。 以 语音 识别 ， 即 将 声学 语 
音信 号 转换 成 ASCII 文本 为 例 。 看 上 去 我 们 可 以 毫 无 困难 地 做 这 件 事 ， 但 是 我 们 却 不 能 解释 
我 们 是 如 何 做 的 。 由 于 年 龄 、 性 别 或 口音 的 差异 ， 不 同 的 人 读 相同 的 词 发 音 却 不 同 。 在 机 器 
学 习 中 ， 这 个 问题 的 解决 方法 是 从 不 同 的 人 那里 收集 大 量 发 音 样本 ， 并 学 习 将 它们 映射 
到 词 。 

另 一 种 需要 学 习 的 情况 是 要 解决 的 问题 随时 间 变 化 或 依赖 于 特定 的 环境 。 我 们 希望 有 一 
个 能 够 自动 适应 环境 的 通用 系统 ， 而 不 是 为 每 个 特定 的 环境 编写 一 个 不 同 的 程序 。 以 计算 机 
网 络 上 的 包 传递 为 例 。 最 大 化 服务 质量 的 、 从 源 地 到 目的 地 的 路 径 随 网 络 流量 的 改变 而 改 
变 。 学 习 路 由 程序 能 够 通过 监视 网 络 流量 自动 调整 到 最 佳 路 径 。 另 一 个 例子 是 智能 用 户 界 
面 ， 它 能 够 自动 适应 用 户 的 生物 特征 ， 即 用 户 的 口音 、 笔 迹 、 工 作 习惯 等 。 

机 器 学 习 在 各 个 领域 都 有 许多 成 功 的 应 用 : 已 经 有 了 识别 语音 和 笔迹 的 商用 系统 。 零 售 
商 分 析 他 们 过 去 的 销售 数据 ， 了 解 顾客 行为 ， 以 便 改善 顾客 关系 管理 。 金 融 机 构 分 析 过 去 的 
交易 ， 以 便 预测 顾客 的 信用 风险 。 机 器 人 学 习 优化 它们 的 行为 ， 以 便 使 用 最 少 的 资源 来 完成 
任务 。 在 生物 信息 学 方面 ， 使 用 计算 机 不 仅 可 以 分 析 海量 数据 ， 而 且 还 可 以 提取 知识 。 这 些 
只 是 我 们 ( 即 你 和 我 ) 将 在 本 书 讨论 的 应 用 的 一 部 分 。 我 们 只 能 想象 一 下 可 使 用 机 器 学 习 
实现 的 未 来 应 用 : 可 以 在 不 同 的 路 况 、 不 同 的 天 气 条 件 下 自己 行驶 的 汽车 ， 可 以 实时 翻译 外 
语 的 电话 ， 可 以 在 新 环境 (例如 另 一 个 星球 的 表面 ) 航行 的 自动 化 机 器 人 。 机 器 学 习 的 确 
是 一 个 令 人 激动 的 研究 领域 ! 

本 书 讨论 的 许多 方法 都 源 于 各 种 领域 : 统计 学 、 模 式 识别 、 神 经 网 络 、 人 工 智能 、 信 号 
处 理 、 控 制 和 数据 挖掘 。 过 去 ， 这 些 不 同 领域 的 研究 遵循 不 同 的 途径 ， 侧 重点 也 不 同 。 本 书 
旨 在 把 它们 组 合 在 一 起 ， 给 出 问题 的 统一 处 理 并 提供 它们 的 解 。 

本 书 是 一 本 人 门 教材 ， 用 于 高 年 级 本 科 生 和 研究 生 的 机 器 学 习 课程 ， 以 及 在 业界 工作 、 对 
这 些 方法 的 应 用 感 兴趣 的 工程 技术 人 员 。 预 备 知识 是 计算 机 程序 设计 、 概 率 论 、 微 积分 和 线性 
代数 方面 的 课程 。 本 书 的 目标 是 充分 解释 所 有 的 学 习 算法 ， 使 得 从 本 书 给 出 的 方程 到 计算 机 程 
序 只 是 一 小 步 。 为 了 使 这 一 任务 更 容易 完成 ， 对 于 某 些 情况 ， 我 们 给 出 了 算法 的 伪 代 码 。 

适当 选取 一 些 章节 ， 本 书 可 用 作 一 学 期 的 课程 。 再 额外 讨论 一 些 研究 论文 的 话 ， 本 书 也 
可 以 作为 两 学 期 的 课程 ， 这 时 每 章 后 的 参考 文献 将 很 有 用 。 

本 书 网 页 为 http // www. empe. boun. edu. tr/~ethem/ 记 ml/ ， 我 将 在 那里 提供 一 些 与 本 书 
有 关 的 信息 ， 如 勘误 表 。 我 真诚 地 欢迎 你 将 你 的 反馈 意见 发 到 我 的 邮箱 : alpaydin@ boun 
edu. tro 


我 非常 喜欢 写 这 本 书 ; 希望 你 能 喜欢 读 它 。 


| esum 


机 器 学 习 领 域 在 理论 和 应 用 两 方面 都 发 展 迅速 。 无 论 是 学 术 界 还 是 产业 界 ， 人 们 都 对 能 
够 通过 实例 学 习 的 计算 机 程序 表现 出 了 极 大 的 兴趣 ， 并 且 所 有 国家 都 是 如 此 。 因 此 ， 看 到 本 
书 的 中 文 版 出 版 我 特别 高 兴 ， 另 外 ， 我 感谢 范 明教 授 为 翻译 本 书 所 做 出 的 努力 ， 他 在 此 之 前 
翻译 了 几 本 统计 学 和 数据 挖掘 的 名 著 。 我 希望 本 书 的 读者 能 觉得 它 有 益处 ， 并 且 就 像 我 乐于 
写 它 一 样 乐于 阅读 它 。 


Ethem Alpaydin 
于 伊斯坦布尔 Bogazigi 大 学 
2008. 8 


Preface of the Chinese Edition 


The field of machine learning is developing rapidly both in theory and applications. There is 
great interest in computer programs which can learn from examples, both in academia and industry, 
and this is true for all countries. It therefore gives me great pleasure to see the Chinese language 
edition of my book in print, and for the effort in dong the translation, I thank Professor Fan who 
previously have translated several well-known texts on statistics and data mining. I hope that the 


readers of my book will find it beneficial and enjoy reading it as much as lenjoyed writing it. 


Ethem Alpaydin 
Boğaziçi University, Istanbul 
August 2008 
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第 1 章 & i 


1.1 什么 是 机 器 学 习 


随 着 计算 机 技术 的 发 展 ， 我 们 现在 已 经 拥有 存储 和 处 理 海量 数据 以 及 通过 计算 机 网 络 
从 远程 站 点 访问 数据 的 能 力 。 目 前 大 多 数 的 数据 存 取 设备 都 是 数字 设备 ， 记 录 的 数据 也 
很 可 靠 。 以 一 家 连锁 超市 为 例 ， 它 拥有 遍布 全 国 各 地 的 数 百 家 分 店 ， 并 且 在 为 数 百 万 顾 
客 提供 数 千 种 商品 的 零售 服务 。 销 售 点 的 终端 设备 记录 每 笔 交易 的 详细 资料 ， 包 括 日 期 、 
顾客 识别 码 、 购 买 商品 和 数量 、 消 费 总 额 等 。 这 是 典型 的 每 日 几 个 G 字 节 的 数据 。 只 有 
分 析 这 些 数据 并 且 将 它 转换 为 可 以 利用 的 信息 时 ， 这 些 存储 的 数据 才能 变 得 有 用 ， 例 
如 做 预测 。 

我 们 不 能 确切 地 知道 哪些 人 比较 倾向 于 购买 哪 种 特定 的 商品 ， 也 不 知道 应 该 向 喜欢 读 海 
明 威 作品 的 人 推荐 哪 位 作者 。 如 果 我 们 知道 ， 我 们 就 不 需要 任何 数据 分 析 ; 我 们 只 管 供 货 并 
记录 下 编码 就 可 以 了 。 但 是 ， 正 因为 我 们 不 知道 ， 所 以 才 只 能 收集 数据 ， 并 期 望 从 数据 中 提 
取 这 些 问题 或 相似 问题 的 答案 。 

我 们 确信 存在 某 种 过 程 ， 可 以 解释 我 们 所 观测 到 的 数据 。 尽 管 我 们 不 清楚 数据 产生 过 程 
(例如 顾客 行为 ) 的 细节 ， 但是， 我 们 知道 数据 产生 不 是 完全 随机 的 。 人 们 并 不 是 去 超市 随 
机 购买 商品 。 当 人 们 买 啤 酒 时 ， 也 会 买 暮 片 ， 夏 天 买 冰淇淋 ， 而 冬天 则 为 Gluhwein? XF 
料 。 数 据 中 存在 确定 的 模式 。 

我 们 也 许 不 能 够 完全 识别 该 过 程 ， 但 是 我 们 相信 ， 我 们 能 够 构造 一 个 好 的 并 且 有 用 的 近 
dit ( good and useful approximation) 。 尽 管 这 样 的 近似 还 不 可 能 解释 一 切 ， 但 其 仍然 可 以 解释 
数据 的 某 些 部 分 。 我 们 相信 ， 尽 管 识 别 全 部 过 程 也 许 是 不 可 能 的 ， 但 是 我 们 仍然 能 够 发 现 某 
些 模式 或 规律 。 这 正 是 机 器 学 习 的 定位 。 这 些 模式 可 以 帮助 我 们 理解 该 过 程 ， 或 者 我 们 可 以 
使 用 这 些 模式 进行 预测 :假定 将 来 ， 至 少 是 不 远 的 将 来 ， 情 况 不 会 与 收集 样本 数据 时 有 很 大 
的 不 同 ， 则 未 来 的 预测 也 将 有 望 是 正确 的 。 

机 器 学 习 方法 在 大 型 数据 库 中 的 应 用 称 为 数据 挖 报 (data mining) 。 类 似 的 情况 如 大 量 的 
金属 氧化 物 以 及 原料 从 矿山 中 开采 出 来 ， 处 理 后 产生 少量 非常 珍贵 的 物质 。 同 样 地 ， 在 数据 
挖 气 中 ,需要 处 理 大 量 的 数据 以 构建 简单 有 用 的 模型 ， 例 如 具有 高 精度 的 预测 模型 。 数 据 挖 
掘 的 应 用 领域 非常 广泛 : 除 零售 业 以 外 ， 在 金融 业 ， 银 行 分 析 他 们 的 历史 数据 ， 构 建 用 于 信 
用 分 析 、 诈 骗 检测 、 股 票 市 场 等 方面 的 应 用 模型 ;在 制造 业 ， 学 习 模 型 可 以 用 于 优化 、 控 制 
以 及 故障 检测 等 ; 在 医学 领域 ， 学 习 程序 可 以 用 于 医疗 诊断 等 ;在 电信 领域 ， 通 话 模式 的 分 
析 可 用 于 网 络 优化 和 提高 服务 质量 ; 在 科学 研究 领域 ， 比 如 物理 学 、 天 文学 以 及 生物 学 的 大 
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量 数 据 只 有 用 计算 机 才 可 能 得 到 足够 快 的 分 析 。 万 维 网 ( World Wide Web) 是 巨大 的 ， 并 且 
在 不 断 地 增长 ， 因 此 在 万 维 网 上 检索 相关 信息 不 可 能 依靠 人 工 完成 。 

然而 ， 机 器 学 习 不 仅仅 是 数据 库 方面 的 问题 ， 它 也 是 人 工 智能 的 组 成 部 分 。 为 了 智能 
化 ， 处 于 变化 环境 中 的 系统 必须 具备 学 习 的 能 力 。 如 果 系统 能 够 学 习 并 且 适 应 这 些 变化 ， 那 
么 系统 的 设计 者 就 不 必 预 见 所 有 的 情况 ， 并 为 它们 提供 解决 方案 了 。 

机 器 学 习 还 可 以 帮助 我 们 解决 视觉 、 语 音 识别 以 及 机 器 人 方面 的 许多 问题 。 以 人 脸 识别 
问题 为 例 : 我 们 做 这 件 事 毫 不 费力 ; 即使 姿势 、 光 线 、 发 型 等 不 同 ， 我 们 每 天 还 是 可 以 通过 
看 真实 的 面孔 或 其 照片 来 认 出 我 们 的 家 人 和 朋友 。 但 是 我 们 做 这 件 事 是 下 意识 的 ， 而 且 无 法 
解释 我 们 是 如 何 做 的 。 因 为 我 们 不 能 够 解释 我 们 所 具备 的 这 种 技能 ， 我 们 也 就 不 可 能 编写 相 
应 的 计算 机 程序 。 但 是 我 们 知道 ， 脸 部 图 像 并 非 只 是 像素 点 的 随机 组 合 ; 人 脸 是 有 结构 的 
对 称 的 。 脸 上 有 了 眼睛、 鼻子 和 嘴巴 ， 并 且 它 们 都 位 于 脸 的 特定 部 位 。 每 个 人 的 脸 都 有 各 自 的 
眼睛 、 鼻 子 和 嘴巴 的 特定 组 合 模式 。 通 过 分 析 一 个 人 脸 部 图 像 的 多 个 样本 ， 学 习 程 序 可 以 捕 
捉 到 那个 人 特有 的 模式 ， 然 后 在 所 给 的 图 像 中 检测 这 种 模式 ， 从 而 进行 辨认 。 这 就 是 模式 识 
3l] (pattern recognition ) 的 一 个 例子 。 

机 器 学 习 使 用 实例 数据 或 过 去 的 经 验 训练 计算 机 ， 以 优化 某 种 性 能 标准 。 我 们 有 依赖 于 
某 些 参数 的 模型 ， 而 学 习 就 是 执行 计算 机 程序 ， 利 用 训练 数据 或 以 往 经 验 来 优化 该 模型 的 参数 
的 。 模 型 可 以 是 预测 性 的 (predictive) ， 用 于 未 来 的 预测 ， 或 者 是 描述 性 的 (descriptive) ， 用 于 
从 数据 中 获取 知识 ， 也 可 以 二 者 兼备 。 

机 器 学 习 在 构建 数学 模型 时 利用 了 统计 学 理论 ， 因 为 其 核心 任务 就 是 从 样本 中 推理 。 计 
算 机 科学 的 角色 是 双重 的 : 第 一 ， 在 训练 时 ， 我 们 需要 求解 优化 问题 以 及 存储 和 处 理 通常 所 
面 对 的 海量 数据 的 高 效 算法 。 第 二 ， 一 旦 学 习 得 到 了 一 个 模型 ， 它 的 表示 和 用 于 推理 的 算法 
解 也 必须 是 高 效 的 。 在 特定 的 应 用 中 ， 学 习 或 推理 算法 的 效率 ， 即 它 的 空间 复杂 度 和 时 间 复 
杂 度 ， 可 能 与 其 预测 精确 度 同样 重要 。 

现在 ， 让 我 们 更 详细 地 讨论 一 些 应 用 领域 的 例子 ， 以 进一步 深入 了 解 机 器 学 习 的 类 型 和 
用 途 。 


1.2 机 器 学 习 的 应 用 实例 


1.2.1 学 习 关联 性 


在 零售 业 ， 例 如 超市 连锁 店 ， 机 器 学 习 的 一 个 应 用 是 购物 篮 分 析 (basket analysis), È 
的 任务 是 发 现 顾客 所 购 商 品 之 间 的 关联 性 : 如 果 人 们 在 购买 商品 时 也 通常 购买 商品 Y， 而 
有 一 名 顾客 购买 了 商品 下 却 没有 购买 商品 Y， 则 他 (或 她 ) 即 是 商品 了 的 潜在 顾客 。 一 旦 我 们 
发 现 这 类 顾客 ， 我 们 就 能 针对 他 们 实行 打包 销售 策略 。 

为 发 现 关 联 规 则 (association rule) ， 我 们 对 学 习 形 如 PCY |X) 的 条 件 概率 感 兴趣 ， 其 中 
六 是 我 们 知道 的 顾客 已 经 购买 的 商品 或 商品 集 ，Y 表示 在 条 件 下 可 能 购买 的 商品 。 

假定 考察 已 有 的 数据 ， 计 算得 到 P( chips | beer) =0.7， 那 么 我 们 就 可 以 定义 规则 : 
购买 啤酒 (beer) 的 顾客 中 有 70% HAER T H H (chips) 。 

我 们 也 许 想 要 区 分 不 同 的 顾客 。 针 对 这 个 问题 ,我们 需要 估计 PCY |X, D), Hp DR 
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顾客 的 一 组 属性 ， 如 性 别 、 年 龄 、 婚 姻 状 况 等 ， 这 里 很 定 我 们 已 经 得 到 了 这 些 属性 信息 。 如 
果 是 考虑 书店 而 不 是 超市 的 销售 问题 ， 商 品 就 可 能 是 书 或 作者 等 。 对 于 Web 门户 网 站 入 口 
问题 ， 项 对 应 着 到 Web 网 页 的 链接 ， 而 我 们 可 以 估计 用 户 可 能 点 击 的 链接 ， 并 利用 这 些 信 
息 来 预先 下 载 这 些 网 页 ， 以 取得 更 快 的 网 页 存 取 速度 。 


1.2.2 分 类 


信贷 是 金融 机 构 ( 例如 银行 ) 借 出 的 一 笔 钱 ， 需 要 连 本 带 息 偿还 ， 通常 是 分 期 偿还 。 
对 银行 来 说 ， 重 要 的 是 能 够 提前 预测 贷款 风险 。 这 种 风险 是 客户 不 履行 义务 和 不 全 额 还 
款 的 可 能 性 。 既 要 确保 银行 获 利 ， 又 要 确保 不 会 因 提供 超出 客户 财力 的 贷款 而 给 客户 带 
来 不 便 。 

在 信用 评分 (credit scoring) (Hand 1998) 中 ， 银行 要 计算 在 给 定 信贷 额度 和 客户 信息 情 
况 下 的 风险 。 客 户 信息 包括 我 们 已 经 获取 的 数据 以 及 与 计算 客户 财力 相关 的 数据 ， 即 收入 、 
存款 、 担 保 、 职 业 、 年 龄 、 以 往 经 济 记录 等 。 银 行 有 以 往 贷款 的 记录 ， 包括 客户 数据 以 及 贷 
款 是 否 偿还 。 通 过 这 类 特定 的 申请 数据 ， 我 们 可 以 推断 出 一 般 规则 ， 表示 客户 属性 及 其 风险 
性 的 关联 性 。 也 就 是 说 ， 机 器 学 习 系统 用 一 个 模型 来 拟 合 过 去 的 数据 ， 以 便 能 够 对 新 的 申请 
计算 风险 ， 从 而 决定 接受 或 拒绝 该 项 申请 。 

这 是 一 个 分 类 (classification) 问题 的 例子 ， 这 里 有 两 个 类 : 低 风险 客户 和 高 风险 客户 。 
客户 信息 作为 分 类 器 的 输入 (input) ， 分 类 器 的 任务 是 将 输入 指派 到 其 中 的 一 个 类 。 

利用 以 往 数据 进行 训练 后 ， 学 习 得 到 的 规则 可 能 具有 如 下 形式 

IF income 6, AND savings > 6, THEN low-risk ELSE high-risk 
其 中 0, 和 9, 是 合适 的 值 (参见 图 1-1) 。 这 是 判别 式 ( discriminant) 的 一 个 例子 ， 它 是 将 不 同 
类 的 样本 分 开 的 函数 。 
x 
+ 











收入 


图 1-1 训练 数据 集 示例 ， 其 中 每 个 圆圈 对 应 一 个 数据 实例 ， 输 入 值 在 对 应 的 坐标 上 ， 符 号 则 指示 
着 类 别 。 为 简单 起 见 ， 输 入 只 包括 客户 的 收入 (income) 和 存款 (savings) 两 种 属性 ， 两 个 类 
分 别 为 低 风险 (“+”) 和 高 风险 (“ -”) 。 图 中 还 显示 了 分 陋 两 类 样本 的 判别 式样 例 
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有 了 这 样 的 规则 ， 其 主要 用 途 就 是 预测 ( prediction) : 一 旦 我 们 拥有 拟 合 以 往 数 据 的 规 
则 ， 如 果 未 来 与 过 去 类 似 ,那么 我 们 就 能 够 对 新 的 实例 做 出 正确 的 预测 。 如 果 给 定 一 个 新 的 
具有 特定 收入 (income) 和 存款 (savings) 的 申请 ， 我 们 就 可 以 很 容易 地 判断 出 它 是 低 风险 
(low-risk) 还 是 高 风险 (high-risk) 了 。 

在 某 些 情况 下 ， 我 们 可 能 不 希望 做 0/1( 低 风险 /高 风险 ) 类 型 的 判断 ， 而 是 希望 计算 
一 个 概率 值 PCY|X) ， 其 中 站 是 顾客 属性 ，Y 是 0 或 1， 分 别 表示 低 风险 和 高 风险 。 从 这 
个 角度 来 看 ， 我 们 可 以 将 分 类 看 作 学 习 从 到 Y 的 关联 性 。 于 是 ， 给 定 X=*， 如 果 有 
P(Y=1|X=x) =0.8， 则 我 们 就 说 该 客户 为 高 风险 的 可 能 性 有 80% ， 或 者 等 价 地 说 该 客户 
为 低 风险 的 可 能 性 有 20% 。 然 后 ， 我 们 可 以 根据 可 能 的 收益 和 损失 来 决定 接受 或 拒绝 这 笔 
贷款 业务 。 i 

机 器 学 习 在 模式 识别 (Pattern recognition ) 方 面 有 很 多 的 应 用 。 其 中 之 一 是 光学 字符 识别 
(optical character recognition, OCR), ， 即 从 字符 图 像 识 别 字符 编码 。 这 是 一 个 多 类 问题 的 例 
子 ， 类 与 我 们 想 要 识别 的 字符 一 样 多。 特别 有 趣 的 是 手写 体 字符 的 识别 问题 。 人 们 有 不 同 的 
书写 风格 ; 字体 有 大 有 小 ， 倾 斜 角度 不 同 ， 还 有 用 钢笔 或 用 铅笔 之 别 ， 所 以 同一 个 字符 可 能 
会 有 许多 种 可 能 的 图 像 。 尽 管 书写 是 人 类 的 发 明 创造 ， 但 是 我 们 还 没有 像 人 类 读者 一 样 准确 
的 系统 。 我 们 没有 字符 “A” 的 形式 化 描述 ， 涵 盖 所 有 “A” 而 不 涵盖 任何 非 “A”。 没 有 
这 种 形式 化 描述 ， 我 们 就 要 从 书写 者 那里 取样 ， 从 这 些 实例 中 学 习 关 于 “A” 的 定义 。 然 
而 ,尽管 我 们 不 知道 是 什么 因素 使 得 一 个 图 像 被 识别 为 “A”，, 但 是 我 们 确信 所 有 这 些 不 同 
的 “A” 的 图 像 都 具有 某 些 共同 的 特征 ， 这 正 是 我 们 希望 从 实例 中 提取 的 。 我 们 知道 ， 图 像 
不 只 是 随机 点 的 集合 ， 它 是 笔画 的 集合 ， 并 且 是 有 规律 的 ， 通 过 学 习 程序 我 们 能 够 捕获 这 些 
规律 。 

阅读 文本 时 ， 我 们 能 够 利用 的 一 个 因素 是 人 类 语言 的 元 余 性 。 词 是 字符 的 序列 
(sequence) ， 并 且 相继 的 符号 不 是 独立 的 ， 而 是 被 语言 的 词 所 约束 。 这 有 好 处 ， 即 便 有 一 个 
符号 不 能 识别 ， 我 们 仍 可 以 读 出 词 ye 。 根 据 语言 的 语法 和 语义 ， 这 种 上 下 文 的 依赖 性 还 
可 能 出 现在 词 和 句子 之 间 等 较 高 的 层次 上 。 目 前 有 用 于 学 习 序列 和 对 这 种 依赖 性 建 模 的 机 器 
学 习 算 法 。 

对 于 人 脸 识别 (face recognition) ， 输 入 是 人 脸 图 像 ， 类 是 需要 识别 的 人 ， 并 且 学 习 程 序 
应 当 学 习 人 脸 图 像 与 身份 识别 之 间 的 关联 性 。 这 个 问题 比 OCR 更 困难 ， 原 因 是 人 脸 会 有 更 
多 的 类 ， 输 入 图 像 也 更 大 一 些 ， 并 且 人 脸 是 三 维 的 ， 不 同 的 姿势 和 光线 等 都 会 导致 图 像 的 显 
著 变 化 。 另 外 ， 对 于 特定 人 脸 的 输入 也 会 出 现 问题 ， 比 如 说 眼镜 可 能 会 把 眼睛 和 眉毛 谈 住 ， 
胡子 可 能 会 把 下 巴 盖 住 等 。 

对 于 医学 诊断 ( medical diagnosis) ， 输 入 是 关于 患者 的 信息 ， 而 类 是 疾病 。 输 入 包括 串 
者 的 年 龄 、 性 别 、 既 往 病史 、 目 前 症状 等 。 当 然 ， 患 者 可 能 还 没有 做 过 某 些 检查 ， 因 此 这 些 
输入 将 会 缺失 。 检 查 需 要 时 间 ， 还 可 能 要 花 很 多 钱 ， 而 且 也 许 还 会 给 患者 带 来 不 便 。 因 此 ， 
除非 我 们 确信 检查 将 提供 有 价值 的 信息 ， 否 则 我 们 将 不 对 患者 进行 检查 。 在 医学 诊断 的 情况 
下 ,错误 的 诊断 结果 可 能 会 导致 我 们 采取 错误 的 治疗 或 根本 不 进行 治疗 。 在 不 能 确信 诊断 结 
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果 的 情况 下 ， 分 类 器 最 好 还 是 放弃 判定 ， 而 等 待 医学 专家 来 做 决断 。 

在 语音 识别 (speech recognition) ， 输 入 是 语音 ， 类 是 可 以 读 出 的 词汇 。 这 里 要 学 习 的 
是 从 语音 信号 到 某 种 语言 的 词汇 的 关联 性 。 由 于 年 龄 、 性 别 或 口音 方面 的 差异 ， 不 同 的 
人 对 于 相同 词汇 的 读音 不 同 ， 这 使 得 语音 识别 问题 相当 困难 。 语 音 识别 的 另 一 个 特点 是 
其 输入 信号 是 时 态 的 (temporal) ， 词 汇 作为 音素 的 序列 实时 读 出 ， 而 且 有 些 词汇 的 读音 会 
较 长 一 些 。 一 种 语音 识别 的 新 方法 涉及 利用 照相 机 记录 口唇 动作 ， 作 为 语音 识别 的 补充 
信息 源 。 这 需要 传感器 融合 (sensor fusion) 技术 ， 集 成 来 自 不 同形 态 的 输入 ， 即 集成 声音 
和 视频 信号 。 

从 数据 中 学 习 规 则 也 为 知识 抽取 (knowledge extraction) 提供 了 可 能 性 。 规 则 是 一 种 解 
释 数 据 的 简单 模型 ， 而 观察 该 模型 我 们 能 得 到 潜在 数据 处 理 的 解释 。 例 如 ， 一 旦 我 们 学 
会 了 区 分 低 风 险 客户 和 高 风险 客户 的 判别 式 ， 我 们 就 拥有 了 关于 低 风险 客户 特性 的 知识 。 
然后 ， 我 们 就 能 够 利用 这 些 知识 ， 通 过 比如 广告 等 方式 ， 更 有 效 地 争取 那些 潜在 的 低 风 
险 客 户 。 

机 器 学 习 还 可 以 进行 压缩 (compression) 。 用 规则 拟 合 数据 ， 我 们 能 得 到 比 数据 更 简单 的 
解释 ， 需 要 的 存储 空间 更 少 ， 处 理 所 需 要 的 计算 更 少 。 例 如 ， 一 旦 你 掌握 了 加 法 规则 ， 你 就 
不 必 记 忆 每 对 可 能 数字 的 和 是 多 少 。 

机 器 学 习 的 另 一 种 用 途 是 离 群 点 检测 (outlier detection) ， 即 发 现 那些 不 遵守 规则 的 例外 
实例 。 在 这 种 情况 下 ， 学 习 规则 之 后 ， 我 们 感 兴趣 的 不 是 规则 ， 而 是 规则 未 能 覆盖 的 例外 ， 
它们 可 能 暗示 出 我 们 需要 注意 的 异常 ， 如 诈骗 。 


1.2.3 回归 


假设 我 们 想 要 一 个 能 够 预测 二 手 车 价格 的 系统 。 该 系统 的 输入 是 我 们 认为 会 影响 到 车 价 
的 属性 信息 : 品牌 、 车 龄 、 发 动机 性 能 、 里 程 以 及 其 他 信息 。 输 出 是 车 的 价格 。 这 种 输出 为 
数值 的 问题 是 回归 (regression ) 问题 。 

Bex 表示 车 的 属性 ，y 表示 车 的 价格 。 调 查 一 下 以 往 的 交易 情况 ， 我 们 能 够 收集 训练 数 
据 ， 而 机 器 学 习 程 序 用 一 个 函数 拟 合 这 些 数据 来 学 习 x 的 函数 y。 图 1-2 给 出 了 一 个 例子 ， 
其 中 对 于 w 和 w。 的 合适 值 ， 拟 合 函 数 具 有 以 下 形式 : 

y = wx + wo 

回归 和 分 类 均 为 监督 学 习 ( supervised leaming) 问 题 ， 其 中 输入 x 和 输出 y 给 定 ， 任 务 是 

学 习 从 输入 到 输出 的 映射 。 机 器 学 习 的 方法 是 ， 先 假定 某 个 依赖 于 一 组 参数 的 模型 
y =g(x|0) 

其 中 ，g(*) 是 模型 ，9 是 模型 的 参数 。 对 于 回归 ，y 是 数值 ， 对 于 分 类 ，y 是 类 编码 (如 0/1)。 
8(") 为 回归 函数 ， 或 者 (对 于 分 类 ) 是 将 不 同类 的 实例 分 开 的 判别 式 函数 。 机 器 学 习 程 序 优 
化 参数 9， 使 得 逼近 误差 最 小 ， 也 就 是 说 ， 我 们 的 估计 要 尽 可 能 地 接近 训练 集中 给 定 的 正确 
值 。 例 如 ， 图 1-2 所 示 的 模型 是 线性 的 ，w 和 wo, 是 为 最 佳 拟 合 训练 数据 优化 的 参数 。 在 线 
性 模型 限制 过 强 的 情况 下 ， 我 们 可 以 利用 比如 二 次 函数 : 

y = wx” + Wx + wy 


或 更 高 阶 的 多 项 式 ， 或 其 他 非 线性 函数 ， 为 最 佳 拟 合 优化 它们 的 参数 。 
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图 1-2 ”二手 车 的 训练 数据 及 其 拟 合 函数 。 为 简单 起 见 ， 这 里 采用 线性 模型 ， 输 入 属性 也 只 有 里 程 








回归 的 另 一 个 例子 是 对 移动 机 器 人 的 导航 。 例 如 ， 自 动 汽车 导航 。 其 中 输出 是 每 次 转动 
车 轮 的 角度 ， 使 得 汽车 前 进而 不 会 挤 到 障碍 物 或 偏离 车 道 。 这 种 情况 下 ， 输 入 由 汽车 上 的 传 
感 器 (如 视频 相机 、GPS 等 ) 提供 。 训 练 数据 可 以 通过 监视 和 记录 驾驶 员 的 动作 收集 。 

我 们 来 想象 回归 的 其 他 应 用 ， 这 里 我 们 试图 优化 一 个 函数 ? 。 假 设 我 们 想 要 造 一 个 焙 炒 
咖啡 的 机 器 ， 该 机 器 有 多 个 影响 咖啡 品质 的 输入 : 各 种 温度 、 时 间 、 咖 啡 豆 种 类 等 配置 。 我 
们 针对 不 同 的 输入 配置 进行 大 量 试验 ， 并 测量 咖啡 的 品质 ， 例 如 ， 根 据 消费 者 的 满意 度 测量 
咖啡 的 品质 。 为 寻求 最 优 配置 ， 我 们 拟 合 一 个 联系 这 些 输入 和 咖啡 品质 的 回归 模型 ， 并 在 当 
前 模型 的 最 优 样 本 附近 选择 一 些 新 的 点 ， 以 便 寻 找 更 好 的 配置 。 我 们 抽取 这 些 点 ， 检 测 咖 啡 
的 品质 ， 将 它们 加 入 训练 数据 ， 并 拟 合 新 的 模型 。 这 通常 被 称 为 响应 面 设计 (response 


surface design) 。 
1.2.4 非 监 督学 习 


在 监督 学 习 中 ， 我 们 的 目标 是 学 习 从 输入 到 输出 的 映射 关系 ， 其 中 输出 的 正确 值 已 经 由 指 
导 者 提供 。 然 而 ， 非 监督 学 习 中 却 没有 这 样 的 指导 者 ， 只 有 输入 数据 。 我 们 的 目标 是 发 现 输入 
数据 中 的 规律 。 输 入 空间 存在 着 某 种 结构 ， 使 得 特定 的 模式 比 其 他 模式 更 常 出 现 ， 而 我 们 希望 
知道 哪些 经 常 发 生 ， 哪 些 不 经 常 发 生 。 在 统计 学 中 ， 这 称 为 密度 估计 (density estimation). 

密度 估计 的 一 种 方法 是 聚 类 (clustering) ， 其 目标 是 发 现 输入 数据 的 入 或 分 组 。 对 于 拥有 
老 客户 数据 的 公司 ， 客 户 数据 包括 客户 的 个 人 统计 信息 ， 及 其 以 前 与 公司 的 交易 ， 公 司 也 许 
想 知道 其 客户 的 分 布 ， 搞 清楚 什么 类 型 的 客户 会 频繁 出 现 。 这 种 情况 下 ， 聚 类 模型 会 将 属性 
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相似 的 客户 分 派 到 相同 的 分 组 ， 为 公司 提供 其 客户 的 自然 分 组 。 一 旦 找 出 了 这 样 的 分 组 ， 公 
司 就 可 能 做 出 一 些 决策 ， 比 如 对 不 同 分 组 的 客户 提供 特别 的 服务 和 产品 等 。 这 样 的 分 组 也 可 
以 用 于 识别 “ 离 群 点 "， 即 那些 不 同 于 其 他 客户 的 客户 ,这 可 能 意味 着 一 块 新 的 市 场 ， 公 司 
可 以 进一步 开发 。 

育 类 的 一 个 有 趣 的 应 用 是 图 像 压缩 (image compression)。 在 这 种 情况 下 ,输入 实例 是 由 
RGB 值 表示 的 图 像 像素 。 聚 类 程序 将 颜色 近似 的 像素 点 分 到 相同 的 分 组 ， 而 这 样 的 分 组 对 
应 图 像 中 频繁 出 现 的 颜色 。 如 果 图 像 中 只 有 少数 颜色 ， 并 且 我 们 用 一 种 颜色 (例如 颜色 的 平 
均值 ) 对 属于 同一 分 组 的 像素 进行 编码 ， 则 图 像 被 量化 。 假 设 像素 是 24 位 ， 表 示 1 600 万 种 
颜色 ， 但 是 如 果 只 有 64 种 主 色 调 ， 那 么 对 于 每 个 像素 ， 我 们 只 需要 6 位 而 不 是 24 位 。 例 
如 ， 如 果 景 象 在 图 像 的 不 同 部 分 有 多 种 不 同 的 蓝 色色 调 ， 并 且 我 们 采用 它们 的 平均 值 来 表示 
所 有 这 些 蓝 色 ， 那 么 我 们 就 丢失 了 图 像 的 细节 ， 但 是 赢得 了 存储 和 传送 图 像 的 空间 。 理 想 状 
态 下 ， 人 们 和 希望 通过 分 析 重复 的 图 像 模 式 ( 如 纹理 、 对 象 等 ) 来 识别 更 高 层次 的 规律 性 。 这 
为 更 高 层次 、 更 简单 、 更 有 用 地 描述 景象 担 供 了 可 能 ， 并 且 实 现 了 比 像素 级 更 好 的 压缩 。 如 
果 我 们 扫描 了 文档 页 ， 我 们 得 到 的 不 是 一 些 随机 的 有 /无 像素 ， 而 是 一 些 字符 的 位 图 。 这 样 
的 数据 是 有 结构 的 ， 并 且 我 们 利用 这 些 元 余 信息 找 出 数据 的 较 短 描述 ;“A” 的 16 x16 的 位 
图 占 32 字 节 ， 其 ASCH 码 只 占 1 个 字 节 。 

机 器 学 习 方 法 还 应 用 于 生物 信息 学 (bioinformatics) 。 在 我 们 的 基因 组 中 ，DNA 是 “生命 
的 蓝图 ”" ， 也 是 碱 基 即 A、G、C 和 T 的 序列 。RNA 由 DNA 转录 而 来 ， 蛋 白质 由 RNA 转换 
而 来 。 蛋 白质 就 是 生命 体 和 生命 体 的 产物 。 正 如 DNA 是 碱 基 序 列 ， 蛋 白质 则 是 氨基 酸 (由 碱 
基 定 义 ) 序 列 。 计 算 机 科学 在 分 子 生物 学 的 应 用 领域 之 一 就 是 比 对 (alignment) ， 即 将 一 个 序 
列 与 男 一 个 序列 匹配 。 这 是 一 个 困难 的 串 匹 配 问题 ， 因 为 序列 可 能 相当 长 ， 有 很 多 模板 串 要 
进行 匹配 ， 并 且 还 可 能 会 被 删节 、 插 人 和 置换 。 聚 类 用 于 学 习 结构 域 ( motif) ， 这 是 蛋白 质 
结构 中 反复 出 现 的 氨基 酸 序列 。 结 构 域 之 所 以 令 人 感 兴趣 ， 是 因为 它们 可 能 对 应 它们 所 表征 
的 序列 内 部 的 结构 或 功能 要 素 。 比 方 说 ， 如 果 氨 基 酸 是 字母 ， 蛋 白质 是 句子 ， 那 么 结构 域 就 
像 单词 ， 即 具有 特别 意义 、 频 繁 地 出 现在 不 同 句子 中 的 一 串 字母 。 


1.2.5 增强 学 习 


在 某 些 应 用 中 ， 系 统 的 输出 是 动作 (aetion) 的 序列 。 在 这 种 情况 下 ， 单 个 的 动作 并 不 重 
要 ， 重 要 的 是 策略 (policy) ， 即 达到 目标 的 正确 动作 的 序列 。 不 存在 中 间 状 态 中 最 好 动作 这 
种 概念 。 如 果 一 个 动作 是 好 的 策略 的 组 成 部 分 ， 那 么 该 动作 就 是 好 的 。 这 种 情况 下 ， 机 器 学 
习 程序 就 应 当 能 够 评估 策略 的 好 坏 程度 ， 并 从 以 往 好 的 动作 序列 中 学 习 ， 以 便 能 够 产生 策 
略 。 这 种 学 习 方 法 称 为 增强 学 习 ( reinforcement leaming) 算 法 。 

游戏 ( game playing) 是 一 个 很 好 的 例子 。 在 游戏 中 ， 单 个 移动 本 身 并 不 重要 ， 正 确 的 移 
动 序列 才 是 重要 的 。 如 果 一 个 移动 是 一 个 好 的 游戏 策略 的 一 部 分 ， 则 它 就 是 好 的 。 游 戏 是 人 
工 智 能 和 机 器 学 习 的 重要 研究 领域 ， 这 是 因为 游戏 容易 描述 ， 但 又 很 难 玩 好 。 像 国际 象棋 这 
样 的 游戏 ， 其 规则 只 有 少量 的 几 条 ， 但 是 它 非常 复杂 ， 因 为 在 每 种 状态 下 都 有 大 量 可 行 的 移 
动 ， 并 且 每 局 又 都 包含 有 大 量 的 移动 。 一 旦 有 了 能 够 学 习 如 何 玩 好 游戏 的 好 算法 ， 我 们 也 可 
以 将 这 些 算法 用 在 具有 更 显著 经 济 效益 的 领域 。 
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用 于 在 某 种 环境 下 搜寻 目标 位 置 的 机 器 人 导航 是 增强 学 习 的 另 一 个 应 用 领域 。 在 任何 时 
候 ， 机 器 人 都 能 够 朝 着 多 个 方向 之 一 移动 。 经 过 多 次 的 试 运行 ， 机 器 人 应 当 学 到 正确 的 动作 
序列 ， 尽 可 能 快 地 从 某 一 初始 状态 到 达 目标 状态 ， 并 且 不 会 撞 到 任何 障碍 物 。 致 使 增强 学 习 
难度 增加 的 一 个 因素 是 系统 具有 不 可 靠 和 不 完整 的 感知 信息 。 例 如 ， 装 备 视频 照 相机 的 机 器 
人 就 得 不 到 完整 的 信息 ， 因 此 该 机 器 人 总 是 处 于 部 分 可 观测 (partially observable) 状态 ， 并 且 
应 当 将 这 种 不 确定 性 考虑 在 内 。 一 个 任务 还 可 能 需要 多 智能 主体 (multiple agents) 的 并 行 操 
作 ， 这 些 智能 主体 将 相互 作用 并 协同 操作 ， 以 便 完成 一 个 共同 的 目标 。 机 器 人 足球 是 这 种 情 
况 的 例子 之 一 。 


1.3 注释 


进化 是 形成 我 们 的 身体 形状 和 我 们 的 内 在 本 能 的 主要 力量 。 我 们 还 需要 终生 学 习 ， 以 改 
变 我 们 的 行为 。 这 有 助 于 我 们 适应 进化 论 还 不 能 预测 的 环境 变化 。 在 合适 的 环境 下 ， 具 有 短 
暂 寿命 的 生物 体 可 能 具备 它们 所 有 天 生 的 行为 能 力 ， 但 是 上 苍 并 未 赋予 我 们 应 对 在 有 限 生命 
中 可 能 遇见 的 所 有 状况 的 能 力 。 但 是 ， 进 化 赋予 我 们 大 脑 和 学 习 机 制 ， 使 得 我 们 可 以 根据 经 
验 实现 自我 更 新 ， 从 而 适应 各 种 各 样 的 环境 。 当 我 们 在 特定 情境 下 学 习 到 最 好 的 策略 时 ， 知 
识 就 存储 在 我 们 的 大 脑 里 。 当 情境 再 现 ， 当 我 们 再 认 知 (“ 认 知 ”意味 认 出 ) 情 境 时 ， 我 们 就 
能 够 回忆 起 合适 的 策略 并 采取 相应 的 动作 。 不 过 ， 学 习 有 其 局 限 性 ; 就 我 们 大 脑 有 限 的 容量 
来 说 ， 也 许 有 些 东 西 我 们 永远 都 不 可 能 学 会 ， 正 像 我 们 永远 不 可 能 “学 会 ”长 出 第 三 只 手 
臂 ， 或 是 在 脑袋 后 面 长 只 眼睛 ， 即 使 它们 是 有 用 的 我 们 也 学 不 会 。 关 于 心理 学 视角 下 的 学 习 
和 认 知 可 参看 Leahey 和 Harris 1997。 注 意 ， 与 心理 学 、 认 知 科学 以 及 神经 系统 科学 都 不 同 
机 器 学 习 的 目标 并 不 是 理解 人 类 和 动物 学 习 的 过 程 ， 而 是 像 任何 的 工程 领域 一 样 ， 机 器 学 习 
旨 在 构建 一 个 有 用 的 系统 。 

几乎 所 有 的 科学 都 在 用 模型 拟 合 数据 。 科 学 家 们 设计 实验 、 进 行 观测 并 收集 数据 。 然 
后 ， 通 过 找寻 能 解释 所 观测 数据 的 简单 模型 ， 尝 试 抽 取 知 识 。 该 过 程 称 为 归纳 (induetion ) , 
它 是 从 一 组 特别 的 示例 中 提取 通用 规则 的 过 程 。 

现在 ， 这 样 的 数据 分 析 已 经 不 能 再 依赖 人 工 完 成 了 ， 原 因 有 二 : 一 是 数据 量 巨大 ， 二 是 
能 够 做 这 种 分 析 的 人 非常 少 而 且 人 工分 析 又 很 昂贵 。 因 而 ， 对 于 能 够 分 析 数 据 并 自动 从 中 提 
取信 息 的 计算 机 模型 ， 也 就 是 说 对 于 学 习 ， 人 们 的 兴趣 正在 不 断 地 增长 。 

下 面 章节 中 我 们 将 要 讨论 的 方法 源 于 不 同 的 科学 领域 。 有时， 相同 的 算法 会 在 多 个 领域 
中 沿 着 各 自 不 同 的 历史 轨迹 被 独立 地 发 现 。 

在 统计 学 中 ， 从 特殊 的 观测 到 一 般 的 描述 称 为 推断 (inference) ， 而 学 习 称 为 估计 ( esti- 
mation) 。 分 类 在 统计 学 中 称 为 判别 式 分 析 (discriminant analysis) (McLachlan 1992; Hastie, 
Tibshirani 和 Friedman 2001) 。 在 计算 机 价格 低廉 并 且 数 量 充足 之 前 ， 统 计 学 家 只 能 处 理 小 样 
本 。 作 为 数学 家 ， 统 计 学 家 主要 使 用 能 够 精确 分 析 的 简单 参数 模型 。 在 工程 学 中 ， 分 类 称 为 
模式 识别 ( pattern recognition) ， 方 法 是 非 参 数 的 ， 并 且 更 大 程度 是 凭借 经 验 的 (Duda\、Hart 
和 Stork 2001; Webb 1999)。 机 器 学 习 与 人 工 智能 (artificial intelligence) 有 关 ( Russell 和 Norvig 
1995) ， 原 因 是 智能 系统 应 当 能 够 适应 其 环境 的 变化 。 视 觉 、 语 音 以 及 机 器 人 等 应 用 领域 都 
是 从 样本 数据 中 学 习 。 在 电子 工程 领域 ， 信 号 处 理 (signal processing) 的 研究 使 得 自 适应 计算 
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机 视觉 和 语音 程序 出 现 。 其 中 ， 隐 马尔 可 夫 模型 (Hidden Markov Models, HMM) 的 发 展 对 于 
语音 识别 尤其 重要 。 

20 世纪 80 年 代 后 期 ， 随 着 VLSI 技术 的 发 展 和 制造 含有 数 千 个 处 理 器 的 并 行 硬件 的 可 
能 性 的 出 现 ， 基 于 多 处 理 单元 的 分 布 式 计算 理论 的 可 行 性 使 得 人 工 神经 网 络 (artificial neural 
networks) 研究 领域 得 到 了 重生 ( Bishop，1995) 。 随 着 时 间 的 推移 ， 人 们 认识 到 在 神经 网 络 研 
究 领 域 中 ， 大 多 数 的 神经 网 络 学 习 算 法 都 具有 其 统计 学 的 基础 (例如 多 层 感 知 器 就 是 另 一 类 
的 非 参 估计 ) ， 因 此 模拟 人 脑 计算 的 说 法 开始 逐渐 淡出 。 

ACA JE AR (data mining) 的 命名 来 源 于 机 器 学 习 算法 在 商界 海量 数据 上 的 应 用 ( Weiss 和 
Indurkhya 1998) 。 在 计算 机 科学 领域 ,数据 挖 扎 也 称 为 数据 库 知识 发 现 (knowledge discovery 
in databases, KDD), 

在 统计 学 、 模 式 识别 、 神 经 网 络 信号 处 理 、 控 制 、 人 工 智能 以 及 数据 挖 据 等 不 同 领域 
中 ， 研 究 工 作 遵循 着 各 自 的 途径 ， 并 有 其 各 自 的 侧重 点 。 本 书 的 目标 是 结合 所 有 这 些 研究 重 
点 ， 以 给 出 统一 的 处 理 问题 方法 ， 并 提出 求解 方案 。 


1.4 相关 资源 


机 器 学 习 的 最 新 研究 成 果 会 发 表 在 不 同 领域 的 会 议和 期 刊 上 。 机 器 学 习 专 门 的 期 刊 有 
Machine Learning( 机 器 学 习 ) 和 Journal of Machine Learning Research( 机 器 学 习 研 究 ) 。 以 神经 
网 络 为 主 的 期 刊 有 Neural Computation (神经 计算 ) . Neural Networks (神经 网 络 ) 以 及 IEEE 
Transactions on Neural Networks( YEEE 神经 网 络 汇 刊 ) 。 统 计 学 方面 的 期 刊 如 Annals of Statistics 
(统计 学 年 鉴 ) 和 Journal of the American Statistical Association( 美 国 统计 学 会 杂志 ) 也 会 发 表 一 
些 机 器 学 习 方面 的 文章 。 另 外 ，1EEE Transactions on Pattern Analysis and Machine Intelligence 
(IEEE 模式 分 析 与 机 器 智能 汇 刊 ) 也 是 机 器 学 习 研 究 性 文章 的 资源 之 一 。 

关于 人 工 智能 、 模 式 识 别 、 模 糊 逻 辑 以 及 信号 处 理 方面 的 期 刊 也 包含 机 器 学 习 方 面 的 文 
章 。 以 数据 挖 所 为 主 的 期 刊 有 Data Mining and Knowledge Discovery ( $ 3832 W 55 40A A2 9) 、 
IEEE Transactions on Knowledge and Data Engineering (IEEE 知识 与 数据 工程 汇 刊 ) 以 及 ACM 
Special Interest Group on Knowledge Discovery and Data Mining Explorations Journal( ACM 知识 发 现 
和 数据 挖掘 特别 兴趣 组 期 刊 )。 

关于 机 器 学 习 方 面 的 主要 会 议 有 “Neural Information Processing Systems” (NIPS), “Une- 
ertainty in Artificial Intelligence” (UAI), “International Conference on Machine Learning” (ICML) , 
“European Conference on Machine Learning” (ECML) VA X “Computational Learning Theory” 
(COLT) , “International Joint Conference on Artificial Intelligence” (JJCAI) 等 。 另 外 ， 关 于 神经 
网 络 、 模 式 识别 、 模 糊 逻 辑 以 及 遗传 算法 等 方面 的 会 议 ， 以 及 关于 诸如 计算 机 视觉 、 语 音 技 
术 、 机 器 人 和 数据 挖掘 等 应 用 方面 的 会 议 ， 也 会 有 针对 机 器 学 习 的 专题 。 

因特网 上 有 很 多 数据 集 ， 致 力 于 机 器 学 习 的 研究 者 经 常 把 它们 作为 自己 研究 的 基准 。 下 
面 是 一 些 常用 的 网 址 : 

UCI 机 器 学 习 数 据 库 是 最 流行 的 数据 库 : http://www. ics. uci, edu/~ mlearn/MLReposi- 

tory. html 

= UCI KDD Archive; http://kdd. ics. uci. edu/summary. data. application. html 








13 












































10 HLF 





= Statlib; http ;//lib. stat. emu. edu 

= Delve; http://www. cs. utoronto. ca/~ delve/ 

机 器 学 习 研 究 者 近期 的 文章 大 多 数 都 可 以 从 因特网 上 找到 ，http://citeseer. nj. nec. com/cs 上 
的 NEC 研究 索引 是 一 个 不 错 的 网 站 入 口 。 


1.5 习题 


1. 设想 你 有 两 种 选择 : 可 以 传真 一 份 文档 ， 即 传送 图 像 ; 或 者 先 使 用 光学 字符 阅读 器 
(OCR) ， 然 后 再 传送 相应 的 文本 文件 。 用 对 比方 式 论述 这 两 种 方法 的 优 缺点 ， 并 讨论 什 
么 时 候 一 种 方法 比 另 一 种 方法 更 好 。 

2. 假定 我 们 正在 构建 一 个 OCR， 并 且 对 于 每 一 个 字符 ， 我 们 都 存储 该 字符 的 位 图 作为 与 逐 
个 像素 读 取 的 字符 匹配 的 模板 。 请 解释 什么 时 候 这 样 的 系统 会 失败 ? 为 什么 条 码 读 取 器 
目前 仍 在 使 用 ? 

3. 假定 我 们 的 既定 目标 是 构建 识别 垃圾 邮件 的 系统 。 请 问 是 垃圾 邮件 中 的 什么 特征 使 得 我 
们 能 够 确认 它 为 垃圾 邮件 ? 计算 机 如 何 通过 语法 分 析 来 发 现 垃圾 邮件 ? 如 果 发 现 了 垃圾 
邮件 ， 你 希望 计算 机 如 何 处 理 它 : 自动 删除 ? 转 到 另 一 个 文件 夹 ? 还 是 仅仅 在 屏幕 上 标 
亮 显示 ? 

4. 如 果 给 定 任务 是 制造 自动 出 租车 ， 请 定义 约束 。 输 入 是 什么 ? 输出 是 什么 ? 如何 与 乘客 
沟通 ? 需要 与 其 他 的 自动 出 租车 沟通 ， 即 需要 某 种 语言 吗 ? 

5. 在 购物 篮 分 析 中 ， 我 们 希望 找 出 产品 奔 和 了 二 者 之 间 的 依赖 关系 。 对 于 给 定 的 顾客 交易 
数据 库 ， 如 何 能 够 发 现 这 些 数据 之 间 的 依赖 关系 ? 进而 ， 如 何 将 依赖 关系 发 现 算法 推广 
到 多 于 两 个 的 产品 之 间 ? 

6. 怎样 能 够 预测 用 户 下 一 次 将 键入 的 命令 ? 或 者 ， 怎 样 能 够 预测 Web 上 下 一 个 将 要 被 下 载 
的 网 页 ? 这 样 的 预测 什么 时 候 是 有 用 的 ? 什么 时 候 会 变 得 令 人 讨厌 ? 
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第 2 章 监督 学 习 


我 们 从 最 简单 的 情况 开始 讨论 监督 学 习 ， 首 先 从 正 例 和 负 例 集合 中 学 习 类 别 ， 继 而 推广 
并 讨论 多 类 的 情况 ， 然 后 再 讨论 输出 为 连续 值 的 回归 。 


2.1 由 实例 学 习 类 


假设 我 们 要 学 习 “ 家 用 汽车 ”类 C。 现 在 有 一 组 汽车 实例 和 一 组 被 测 人 ， 我 们 向 被 
测 人 示 以 这 些 汽车 。 被 测 人 看 到 所 示 汽 车 并 标记 汽车 ， 将 他 们 认为 是 家 用 汽车 的 标 为 
正 例 (positive example) ， 其 他 的 标 为 负 例 ( negative example), 。 类 学 习 就 是 找寻 一 个 涵盖 
所 有 的 正 例 而 不 包括 任何 负 例 的 描述 。 通 过 这 些 ， 我 们 可 以 做 预测 : 给 定 一 辆 我 们 以 
前 从 未 见 过 的 汽车 ， 检 查 学 习 得 到 的 描述 ， 我 们 就 可 以 判断 这 辆 汽车 是 否 为 家 用 汽车 。 
我 们 还 可 以 做 知识 提取 : 这 种 研究 可 能 由 汽车 公司 锡 助 ， 目 的 可 以 是 了 解 人 们 对 家 用 
汽车 的 期 望 。 
经 过 与 该 领域 专家 的 一 些 沟通 ， 假 定 我 们 得 到 了 一 个 结论 : 在 我 们 所 掌握 的 汽车 的 所 
有 特征 中 ， 区 别家 用 汽车 与 其 他 汽车 的 特征 是 价格 和 发 动机 功率 。 这 两 个 属性 就 是 类 识 
别 器 的 输入 (input) 。 注 意 ， 当 我 们 决定 采用 这 种 特殊 输入 表示 (input representation ) 时 ， 
我 们 忽略 其 他 属性 ， 将 它们 看 作 是 不 相关 的 。 尽 管 有 人 可 能 认为 诸如 座位 数量 、 车 身 颜 
色 等 属性 对 于 辨别 车 型 也 很 重要 ， 但 是 这 里 为 了 简单 起 见 ， 我 们 只 考虑 价格 和 发 动机 
功率 。 
我 们 假设 价格 为 第 一 个 输入 属性 x ( 比如 以 美元 计算 ) ， 发 动机 功率 为 第 二 个 输入 属性 
x 比如 以 立方 厘米 计 发 动机 排 量 ) 。 这 样 ， 每 辆 汽车 就 可 以 用 两 个 数值 来 表示 
x, 
x= [2] (2.1) 
而 它 的 标号 表示 汽车 的 类 型 
ZI DECEM (2.2) 
0 如果 工 是 负 例 
每 辆 汽车 用 一 个 这 种 有 序 对 (x，r) 来 表示 ， 而 训练 集中 包括 NN 个 这 样 的 实例 
X= {x ,ri (2.3) 
HP, 用 于 标记 训练 集中 的 各 个 汽车 实例 ， 它 不 表示 时 间或 任何 类 似 的 序 。 
现在 ,我 们 的 训练 数据 可 以 绘制 在 二 维 空间 (x,，zx;) 上 ， 其 中 每 个 实例 + 是 一 个 数据 
点 ， 坐 标 为 (x;，*;)， 其 类 型 ( 即 正 或 负 ) 由 7 给 定 (参见 图 2-1) 。 
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图 2-1 “家 用 汽车 ”类 的 训练 集 。 其 中 每 个 点 代表 一 个 汽车 实例 ， 点 的 坐标 值 分 别 表示 汽车 的 价格 和 
发 动机 功率 。“ + ”表示 正 例 (家 用 汽车 ) " - ”表示 负 例 ( 非 家 用 汽车 ) ， 即 其 他 类 型 的 汽车 


通过 进一步 与 专家 讨论 和 分 析 数 据 ， 我 们 有 理由 相信 ， 对 于 家 用 汽车 ， 其 价格 和 发 动机 
功率 应 当 是 在 某 个 确定 的 范围 内 
(p, < 价格 < p,)AND(e，< 发 动机 功率 < e) (2.4) 
FE py, Pr, e Me, 为 适当 的 值 。 这 样 ，(2.4) 式 假定 类 C 是 价格 -发 动机 功率 空间 中 的 矩 
形 (参见 图 2-2)。 


Qe 发 动机 功率 


be 
Po 价格 
图 2-2 假设 类 的 实例 。 家 用 汽车 类 是 价格 和 发 动机 功率 空间 中 的 矩形 
(2.4) 式 确定 了 假设 类 (hypothesis class)3f( 即 矩形 的 集合 ) ， 我 们 相信 C 是 从 中 抽取 的 。 
学 习 算 法 应 当 找到 一 个 特定 的 假设 (hypothesis)# es3f， 尽 可 能 地 逼近 Co 
尽管 专家 定义 了 假设 类 ， 但 是 他 却 不 能 说 出 参数 值 是 什么 。 换 名 话说， 尽管 我 们 选 定 了 
3{， 但 是 我 们 却 不 知道 哪个 特定 的 he 3{ 等 于 或 最 接近 C。 然 而 ， 一 旦 我 们 把 注意 力 局 限于 
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这 个 假设 类 ， 学 习 类 就 归结 为 较 简单 的 问题 一 一 找 出 定义 h 的 4 个 参数 。 
我 们 的 目标 是 找 出 he H， 它 与 C 尽 可 能 类 似 。 假 设 h 对 实例 x 进行 预测 ， 使 得 
1 如 果 户 将 工分 类 为 正 例 
0 ”如果 下 将 兰 分 类 为 负 例 
实际 上 我 们 并 不 知道 C(x) ， 因 此 也 无 法 评估 A(x) 55 C(x) 的 匹配 程度 。 我 们 所 拥有 的 
是 训练 集 X， 它 是 所 有 可 能 的 x 的 一 个 小 子 集 。 经 验 误 差 (empirical error) 是 hh 的 预测 什 
(prediction) 与 X 中 给 定 的 预期 值 (required value) 不 同 的 训练 实例 所 占 的 比例 。 对 于 给 定 的 
训练 集 X， 假 设 h 的 误差 是 


h(x) = (2.5) 


~ 


E(h |x) = D A) #r') (2.6) 
HF, Mas 5b 时 1(a #45) 为 1, 4a=b Rt 1(a #45) 为 0( 参 见 图 2-3)。 
* 








hee Ps 价格 


图 2-3 C 是 实际 的 类 , h 是 我 们 的 诱导 假设 。C 为 1 而 为 0 的 点 为 假 负 ，C 为 0 而 为 1 
的 点 为 假 正 。 其 他 点 ， 即 真正 和 真 负 ， 都 被 正确 地 分 类 


在 我 们 的 例子 中 ,假设 类 Hf 是 所 有 可 能 的 矩形 的 集合 。 每 个 四 元 组 (pr, pi, eè, e) 
都 定义 3f 中 的 一 个 假设 上 ， 而 我 们 需要 选择 其 中 最 好 的 一 个 ; 换 句 话说 ， 给 定 训练 集 ， 我 们 
需要 找 出 这 四 个 参数 的 值 ， 使 得 它 涵盖 所 有 的 正 例 而 不 包括 任何 的 负 例 。 注 意 ， 如 果 和 
为 是 实数 ， 则 存在 无 穷 多 个 h 满足 上 述 条 件 ， 也 就 是 说 ， 对 于 这 些 h 误差 为 零 。 但 是 ， 
给 定 一 个 接近 于 正 例 和 负 例 边界 的 某 个 未 来 实例 ， 不 同 的 候选 假设 可 能 做 出 不 同 的 预测 。 这 
是 泛 化 ( generalization) 问题 ， 即 我 们 的 假设 对 不 在 训练 集中 的 未 来 实例 的 分 类 的 准确 率 
如 何 。 

一 种 可 能 的 策略 是 找 出 最 特殊 的 假设 (most specific hypothesis)S， 它 是 涵盖 所 有 正 例 而 
不 包括 任何 负 例 的 最 紧凑 的 矩形 (参见 图 2-4) 。 这 样 就 得 出 一 个 假设 六 = S， 作 为 我 们 的 诱导 
X (induced class) 。 注 意 实际 的 类 C 可 能 会 比 S 更 大 但 绝 不 会 更 小 。 最 一 般 的 假设 (most gen- 
eral hypothesis) G 是 涵盖 所 有 正 例 而 不 包括 任何 负 例 的 最 大 矩形 (参见 图 2-4) 。 对 于 任何 介 
于 3 和 C 之 间 的 As3f，A 为 无 误差 的 有 效 假设 ， 称 作 与 训练 集 相 容 ( consistent) ,并 且 这 样 
的 h 形 成 解 空间 (version space) 。 
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7: 发 动机 功率 








x; 价格 
图 2-4 5 是 最 特殊 的 假设 ，G 是 最 一 般 的 假设 


SAC 不 必 是 唯一 的 。 依 赖 于 训练 集 和 假设 类 ， 可 能 存在 多 个 5, 和 G,， 它 们 分 别 形成 
5- 集 和 6G- 集 。5- 集 中 的 每 个 假设 都 与 所 有 的 实例 一 致 ， 并 且 不 存在 更 特殊 的 一 致 假设 。 类 似 
地 ，6- 集 中 的 每 假设 都 与 所 有 的 实例 一 致 ， 并 且 不 存在 更 一 般 的 一 致 假设 。 这 两 个 集合 形成 
边界 集 ， 而 它们 之 间 的 任何 假设 都 是 一 致 的 ， 并 且 是 解 空间 的 一 部 分 。 存 在 一 个 称 作 候 选 删 
除 的 算法 ， 随 着 逐个 看 到 训练 实例 ， 它 增 量 地 更 新 5- 集 和 G- 集 。 见 Mitchell 1997, Russell 
和 Norvig 1995。9 

给 定 X， 我 们 可 以 找到 5 或 6, 或 二 者 的 平均 (为 什么 ?) ， 或 解 空间 中 的 任意 h， 并 将 它 
作为 我 们 的 假设 h。 给 定 另 一 个 训练 集 ， 参 数 和 学 习 得 到 的 假设 可 能 不 同 。 

作为 另外 一 种 可 能 ， 我 们 可 以 定义 任何 被 S 覆盖 的 实例 都 是 正 例 ， 而 任何 没 被 6 覆盖 
的 实例 都 是 负 例 ， 并 且 任 何其 他 ( 介 于 S 和 C 之 间 ) 的 实例 都 是 不 确定 (doubt) 实例 ， 由 于 缺 
乏 数 据 支持 ， 无 法 正确 标注 这 些 不 确定 实例 。 在 这 种 情况 下 ， 系 统 将 去 除 (reject) 这 些 实 
例 ， 并 留待 人 类 专家 来 判定 。 

这 里 ， 我 们 假定 包含 CY， 即 存在 he H， 使 得 E(h |X) 为 0。 给 定 假设 类 9f， 可 能 存 
在 不 能 学 习 C 的 情况 ， 即 不 存在 he 3{， 使 得 误差 为 0。 因此 ， 对 于 任何 的 应 用 ， 我 们 都 需 
要 确信 (有 足够 的 柔性 ， 或 3{ 具 有 足够 的 “能 力 ” 学 习 C。 


2.2 VC 维 


假定 我 们 有 一 个 数据 集 ， 包 含 NN 个 点 。 这 NN 个 点 可 以 用 2" 种 方法 标记 为 正 例 和 负 例 。 
因此 ，N 个 数据 点 可 以 定义 2" 种 不 同 的 学 习 问 题 。 如 果 对 于 这 些 问题 中 的 任何 一 个 ,我 们 
都 能 够 找到 一 个 假设 he 7 将 正 例 和 负 例 分 开 ， 那么 我 们 就 称 7 散 列 (shatter) 入 个 点 。 也 就 
是 说 ， 可 以 用 NN 个 点 定义 的 任何 的 学 习 问 题 都 能 够 用 一 个 从 7 中 抽取 的 假设 无 误差 地 学 习 。 
可 以 被 红 散 列 的 点 的 最 大 数量 称 为 红 的 VC 维 (Vapnik- Chervonenkis dimension ) ， 记 为 


O 这 一 段 文字 是 作者 勘误 表 提供 的 对 S 和 C 的 进一步 解释 ， 根 据 作者 的 意见 插 在 此 处 。 一 一 译 者 注 


监督 学 习 15 





VC(3f)， 它 度量 假设 类 3{ 的 学 习 能 力 (capacity) 。 

在 图 2-5 中 ， 我 们 可 以 看 到 ， 轴 平行 的 矩形 能 够 散 列 二 维 空间 的 4 个 点 。 因 此 ， 当 3 为 
二 维 空间 中 轴 平行 的 矩形 的 假设 类 时 ，VC(31) 等 于 4。 在 计算 VC 维 时 ， 能 找到 4 个 被 散 列 
的 点 就 够 了 ; 没有 必要 去 散 列 二 维 空间 中 任意 A 个 点 。 例 如 ， 位 于 同一 直线 上 的 4 个 点 不 能 
被 矩形 散 列 。 然 而 ， 我 们 无 法 在 二 维 空间 的 任何 位 置 设置 5 个 点 ， 使 得 对 于 所 有 可 能 的 标 
记 ， 一 个 矩形 能 够 分 开 正 例 和 负 例 。 


n 
* 











* 


图 2-5 轴 平 行 的 矩形 能 够 散 列 4 个 点 ， 其 中 只 显示 了 覆盖 两 个 点 的 矩形 


也 许 VC 维 看 起 来 比较 翡 观 ， 它 告诉 我 们 使 用 矩形 作为 假设 类 ， 我 们 只 能 学 习 包 括 4 
个 点 的 数据 集 。 能 够 学 习 含有 4 个 点 的 数据 集 的 学 习 算法 不 是 很 有 用 。 然 而 ， 这 是 因为 
VC 维 独立 于 数据 实例 的 概率 分 布 。 在 实际 生活 中 ， 世 界 是 平滑 变化 的 ， 在 大 多 数 时 间 相 
近 的 实例 具有 相同 的 标记 ， 我 们 并 不 需要 担心 所 有 可 能 的 标记 。 有 很 多 包含 远 不 止 4 个 点 
的 数据 集 都 可 以 通过 我 们 的 假设 类 来 学 习 (参见 图 2-1) 。 因 此 ， 即 便 是 具有 较 小 VC 维 的 
假设 类 也 是 有 应 用 价值 的 ， 并 且 比 那 些 较 大 的 VC 维 ( 例 如 ， 具 有 无 穷 VC 维 的 查找 表 ) 更 
可 取 。 


2.9 概率 逼近 正确 学 习 


使 用 最 紧凑 的 矩形 S 作为 假设 ， 希 望 找 出 我 们 需要 多 少 实例 。 我 们 希望 我 们 的 假设 是 
近似 正确 的 ， 即 误差 概率 不 超过 某 个 值 。 还 要 对 我 们 的 假设 有 信心 ， 因 为 我 们 想 知道 我 
们 的 假设 在 大 多 数 时 间 里 都 是 正确 的 。 因 此 我 们 希望 我 们 的 假设 (以 我 们 可 以 指定 的 概 
率 ) 是 正确 的 。 

在 概率 通 近 正确 (Probably Approximately Correct，PAC) 学 习 中 ， 给 定 类 C 和 从 未 知 但 具 
有 确定 概率 分 布 p(x) 中 抽取 的 样本 ， 我 们 希望 找 出 样本 数 N， 使 得 对 于 任意 的 8<1/2 和 
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es>0， 假 设 六 的 误差 至 多 为 e 的 概率 至 少 为 1 -6。 

P\CAh<e} 21-8 
HH, CAh 是 C 5j h RAM RRM. 

在 这 种 情况 下 ， 因 为 5 是 最 紧凑 的 可 能 的 矩形 ，(C 55 h = S 之 间 的 误差 区 域 是 四 个 矩形 

条 带 之 和 (参见 图 2-6)。 我 们 希望 确保 正 例 落 在 该 区 域 (导致 错误 ) 的 概率 最 多 为 =。 对 于 任 
何 这 样 的 条 带 ， 如 果 我 们 能 够 确保 其 概率 上 界 为 /4 ， 则 误差 最 多 为 4(e/4) = es。 注意 ， 我 
们 将 矩形 角 部 的 重 公 部 分 计算 了 两 次 ， 并 且 这 种 情况 下 总 的 实际 误差 小 于 4(s/4)。 随 机 抽 
取 的 样本 不 在 此 条 带 中 的 概率 是 1 - s/4。 所 有 NN 个 独立 抽取 的 样本 不 在 此 条 带 中 的 概率 为 
(1- 6/4)", BN 个 独立 抽取 的 样本 不 在 任意 这 四 个 矩形 条 带 中 的 概率 最 多 为 
4(1 -se/4) "， 我 们 希望 其 最 大 值 为 5。 我 们 有 不 等 式 

(1 -x) <exp[-x] 





图 2-6 Ah 与 5 之 差 是 四 个 矩形 条 带 之 和 ， 其 中 一 个 用 阴影 显示 


因此 ， 如 果 选 定 V 和 5 满足 
4exp[ - &N/4] < 8 
则 我 们 有 4(1 - se/4) "<5。 不 等 式 两 边 同 时 除 以 4， 再 取 ( 自 然 ) 对 数 ， 并 重新 排列 各 项 ， 我 
们 得 到 
N > (4/e)log(4/5) (2.7) 
因此 ， 只 要 我 们 至 少 从 C 中 取 (4/e)log(4/5) 个 独立 样本 ， 并 使 用 紧凑 矩形 作为 我 们 的 
假设 hh， 则 在 置信 概率 (confidence probability) 至 少 为 1 -5 的 情况 下 ， 一 个 给 定点 被 误 分 类 
的 错误 概率 最 多 为 =。 减少 5 我 们 可 以 有 任意 大 的 置信 度 ， 而 减少 e 我 们 可 以 有 任意 小 的 误 
差 ， 并 且 我 们 在 不 等 式 (2.7) 中 看 到 ,样本 的 数量 是 分 别 随 1/s 和 1/5 旦 线性 和 对 数 缓慢 增 
长 的 函数 。 


2.4 RAE 


噪声 (noise) 是 数据 中 有 害 的 异常 。 由 于 噪声 的 存在 ， 类 的 学 习 可 能 更 加 困难 ， 并 且 使 
用 简单 的 假设 可 能 做 不 到 零 误差 (参见 图 2-7) 。 品 声 有 以 下 几 种 解释 : 
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= “记录 输入 属性 可 能 不 准确 ， 这 可 能 导致 数据 点 在 输入 空间 的 移动 。 
”标记 数据 点 可 能 有 错 ， 可 能 将 正 例 标记 为 负 的 ， 或 相反 。 这 种 情况 称 为 指导 噪声 
(teacher noise) 。 
© 可 能 存在 我 们 没有 考虑 到 的 附加 属性 ， 而 它们 会 影响 实例 的 标注 。 这 些 附 加 属性 可 
能 是 隐藏 的 (hidden) 或 潜在 的 (latent) ， 因 此 是 不 可 观测 的 。 这 些 被 忽略 的 属性 所 造 
成 的 影响 作为 随机 成 分 ， 是 “噪声 ”的 一 部 分 。 
如 图 2-7 Bis, 当 有 噪声 时 ， 在 正 负 实例 之 间 不 存在 简单 的 边界 ， 并 且 为 了 将 它们 分 
开 ， 我 们 需要 复杂 的 假设 以 对 应 能 力 更 大 的 假设 类 。 拢 形 可 以 用 4 个 数 定义 ， 然 而 为 了 定义 
更 复杂 的 形状 ， 我 们 就 需要 具有 大 量 参数 的 更 复杂 的 模型 。 利 用 这 些 复杂 模型 ， 我 们 可 以 更 
好 地 拟 合 数据 ， 得 到 零 误 差 (参见 图 2-7 中 的 曲线 图 形 ) 。 另 一 个 可 行 的 方法 是 保持 模型 的 简 
单 性 并 允许 一 些 误差 的 存在 (参见 图 2-7 中 的 矩形 ) 。 
Ly 








* 
图 2-7 当 有 噪声 时 ， 在 正 例 和 负 例 之 间 不 存在 一 个 简单 的 边界 ， 使 用 简单 假设 也 许 


不 可 能 达到 零 误差 的 分 类 结果 。 和 矩形 是 具有 4 个 定义 隅 角 的 参数 的 简单 假设 。 
使 用 大 量 控制 点 的 分 段 函数 能 够 导出 任意 的 封闭 图 形 


使 用 简单 的 矩形 (除非 其 训练 误差 很 大 ) 更 有 意义 ， 原 因 如 下 : 

1. 矩形 是 一 种 容易 使 用 的 简单 模型 。 容 易 检 查 一 个 点 是 在 矩形 内 还 是 在 矩形 外 ， 并 且 
对 于 未 来 的 数据 实例 ， 我 们 都 可 以 容易 地 检查 它 是 正 例 还 是 负 例 。 

2. 矩形 是 一 种 容易 训练 的 简单 的 模型 ， 并 且 具 有 较 少 的 参数 。 相 对 任意 图 形 的 控制 点 
来 说 ， 比 较 容易 找到 矩形 的 隅 角 值 。 利 用 小 规模 训练 集 ， 当 训练 实例 有 少许 差异 时 ， 我 们 预 
期 简单 模型 比 复杂 模型 变化 小 一 些 : 简单 模型 具有 更 小 的 方差 ( variance) 。 另 一 方面 ， 太 简 
单 的 模型 假设 更 多 、 更 严格 ， 并 且 如 果 潜 在 类 并 非 那么 简单 ， 模 型 预测 就 可 能 失败 : 较 简单 
的 模型 具有 较 大 的 偏 倚 (bias) 。 求 解 最 优 模型 相当 于 最 小 化 偏 倚 和 方差 。 

3. 矩形 是 容易 解释 的 简单 模型 。 和 矩形 简单 地 对 应 在 两 个 属性 上 定义 的 区 间 。 通 过 学 习 
简单 的 模型 ， 我 们 能 够 从 给 定 训练 集 的 原始 数据 中 提取 信息 。 

4. 如 果 输 入 数据 中 确实 存在 错误 标记 的 实例 或 噪声 ， 并 且 实 际 的 类 确实 就 是 像 矩 形 
这 样 的 简单 模型 ， 那 么 由 于 抢 形 具有 较 小 的 方差 ， 并 且 较 少 地 被 单个 实例 所 影响 ， 所 以 
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尽管 简单 矩形 可 能 导致 训练 集 上 较 大 的 误差 ， 它 也 是 比 曲线 图 形 更 好 的 分 类 器 。 我 们 说 
简单 (但 不 是 太 简 单 的 ) 模 型 会 比 复杂 模型 泛 化 能 力 更 好 。 该 规则 就 是 著名 的 奥 克 姆 制 刀 
MM (Occam's razor) ， 它 是 说 较 简单 的 解释 看 上 去 更 可 信 ， 并 且 任 何不 必要 的 复杂 性 都 应 
该 被 握 弃 。 






































2.5 学 习 多 类 
在 前 面 的 家 用 汽车 例子 中 ， 我 们 有 属于 家 用 汽车 类 的 正 例 和 属于 其 他 所 有 汽车 类 别 的 负 
例 。 这 是 一 个 两 类 (two-elass) 问题 。 通 常情 况 下 ， 我 们 有 天 个 类 ， 记 为 C,，i= 1，…，K， 
并 且 每 个 输入 实例 严格 地 属于 其 中 一 个 类 。 训 练 集 形 如 
X 2 dx'rit 
Hp rÆ KE, HE 
1 如 果 x' eC, 
- bXreGCjsi (2:8) 
一 个 例子 在 图 2-8 中 给 出 ， 其 中 实例 来 自 三 个 类 : 家 用 汽车 、 运 动 汽车 和 豪华 轿车 。 
运动 汽车 
* oO 
O 
$ oQ- 
R 7 
? 
A ^ 
5 d A^ Neg 
BH 豪华 轿车 
oo 
家 用 汽车 





价格 


图 2-8 有 三 个 类 : 家 用 汽车 、 运 动 汽车 和 豪华 轿车 。 有 三 个 归纳 的 假设 ,每 个 假设 覆盖 一 个 类 的 
实例 而 不 包括 另外 两 个 类 的 实例 。“?” 为 拒绝 区 域 ， 其 中 没有 类 或 有 多 个 类 被 选中 


在 用 于 分 类 的 机 器 学 习 中 ， 我 们 希望 学 习 将 一 个 类 与 所 有 其 他 类 分 开 的 边界 。 这 样 R 
们 把 K- 类 的 分 类 问题 看 作 是 让 个 两 类 问题 。 属 于 C, 类 的 训练 实例 是 假设 h, 的 正 例 ， 属 于 所 
有 其 他 类 的 训练 实例 是 假设 六 的 负 例 。 因 此 ， 在 K- 类 的 分 类 问题 中 ， 我 们 要 学 习 天 个 假设 ， 
使 得 

hn) = R BE e C, s (2.9) 
0 Hx e Cj i 

在 理想 情况 下 ， 对 于 给 定 的 *， 只 有 其 中 一 个 假设 六 (z)(i=1，…，K) 为 1， 并 且 我 们 

能 够 选 定 一 个 类 。 但 是 ， 当 没有 或 者 有 两 个 或 更 多 的 h,(x) 为 1 时 ， 我 们 就 无 法 选 定 一 个 
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K, RERA R H (doubt) 情况 并 且 分 类 器 要 拒绝 这 种 情况 。 

在 学 习 家 用 汽车 的 例子 中 ， 我 们 只 用 了 一 个 假设 ， 并 且 只 对 正 例 样本 建 模 。 任 何 未 包括 
在 其 中 的 实例 都 不 是 家 用 汽车 。 作 为 另 一 种 选择 ， 有 时 我 们 可 能 更 倾向 于 构建 两 个 假设 ， 一 
个 是 对 正 例 ， 另 一 个 是 对 负 例 。 这 也 为 被 另 一 个 假设 所 覆盖 的 负 例假 定 一 个 结构 。 将 家 用 汽 
车 与 运动 汽车 分 开 就 是 一 个 这 样 的 问题 ,每 个 类 都 有 其 自己 的 结构 。 这 种 处 理 的 优点 在 于 ， 
如 果 输 入 的 是 一 辆 豪华 轿车 ， 我 们 就 能 够 通过 两 个 假设 来 判定 其 为 负 例 并 丢弃 该 输入 。 


2.6 回归 


在 分 类 问题 中 ， 给 定 一 个 输入 ， 所 产生 的 输出 是 一 个 布尔 值 ， 这 是 一 个 是 / 否 型 答案 。 
当 输 出 是 数值 型 的 值 时 ， 我 们 所 希望 学 习 的 不 是 一 个 类 C(x) e 10，1| ， 而 是 一 个 连续 函 
数 。 在 机 器 学 习 中 ， 函 数 是 未 知 的 ， 不 过 我 们 有 从 其 中 抽取 的 训练 集 
X 2 ter lh, 
FE rR, UDRORTETEMON, SPEED A (interpolation) 。 我 们 希望 找到 通过 这 些 点 的 
函数 /(x) ， 使 得 
r= f(x') 
TE $ HX MA (polynomial interpolation) 中 ， 给 定 N 个 点 ， 我 们 找 出 可 以 用 来 预测 任何 
x 的 输出 的 (N -1) 阶 多 项 式 。 如 果 x 落 在 训练 集中 x' 的 值 域 之 外 ， 则 该 方法 称 为 外 插 或 外 
推 (extrapolation) 。 例 如 ， 在 时 间 序 列 预测 中 ， 我 们 拥有 截至 到 目前 的 数据 ， 而 且 希 望 预测 
未 来 的 值 。 在 回归 (regression) 分 析 中 ， 噪 声 添加 到 未 知 函 数 的 输出 上 
r=f(x)+e (2.10) 
SEP f(x) e SUR AVEC, s 是 随机 噪声 。 关 于 噪声 的 解释 是 ， 存 在 我 们 无 法 观察 到 的 额外 
的 隐藏 (hidden) 变 量 


r =f (x',2') (2.11) 
其 中 z RAR AEM RORTE, O19 GER SEHUS g(x) KER. URR E4630 SUR 
EGO = Y Un eon (2.12) 


因为 + 和 g(x) 是 数值 量 (例如 ， 属 于 只) ， 因 此 存在 定义 在 其 值 域 上 的 序 ， 并 且 我 们 可 
以 定义 值 之 间 的 距离 (distance) 为 差 的 平方 。 相 对 于 分 类 使 用 的 等 于 或 不 等 于 来 说 ， 距 离 给 
我 们 提供 了 更 多 的 信息 。 差 的 平方 是 一 种 可 以 使 用 的 误差 函数 ， 另 一 种 误差 函数 是 差 的 绝对 
值 。 在 后 续 章节 中 ， 我 们 将 会 看 到 一 些 其 他 例子 。 
我 们 的 目标 是 找到 最 小 化 经 验 误差 的 g(*)。 我 们 的 方法 又 是 相同 的 ， 我 们 对 gO) 假定 
一 个 的 具有 少量 参数 的 假设 类 。 如 果 假定 g(x) 是 线性 的 ， 则 我 们 有 
B(x) = wz, + + wx, + Wo = Y wx, + wo (2.13) 


fa 


现在 ， 再 回 到 1.2.3 节 的 例子 ， 在 那里 我 们 估计 一 辆 二 手 车 的 价格 。 当 时 我 们 使 用 单个 
输入 的 线性 模型 
B(x) = wx + w, (2.14) 
其 中 ，w 和 w 是 需要 从 数据 中 学 习 的 参数 。w, 和 w 的 值 应 该 使 下 式 最 小 化 
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Elw, o |X) = x Yn - Gr! m) (2.15) 


FURAN AAT DURB RDR EAF w 和 wo 的 偏 导数 ， 令 偏 导数 为 0， 并 求解 这 两 个 未 知 量 来 
计算 : 


Yr -aN 
"TEGIN (2.16) 
Wo =F- wt 


其 中 , z= 3 x/N, T= » r/N。 找 到 的 直线 如 图 1-2 所 示 。 
如 果 线 性 模型 过 于 简单 ， 它 就 会 太 受 限 制 ， 导 致 大 的 近似 误差 ， 并 且 在 这 种 情况 下 ， 输 
出 可 以 取 输 入 的 较 高 阶 的 函数 ， 例 如 二 次 函数 
g(x) = w,x! + w,x + Wo (2.17) 
其 中 类 似 地 ， 我 们 有 参数 的 解析 解 。 当 多 项 式 的 阶 增加 时 ,训练 数据 上 的 误差 将 会 降低 。 但 
是 高 阶 多 项 式 关注 个 体 样 本 ， 而 不 是 捕获 数据 一 般 趋势 (参看 图 2-9 中 的 六 次 多 项 式 ) 。 因 
此 ， 当 精确 调整 的 模型 复杂 性 达到 潜在 数据 的 函数 的 复杂 度 时 ， 我 们 应 该 谨慎 行事 。 
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2-9 拟 合 相同 的 数据 点 集 的 线性 、 二 次 和 六 次 多 项 式 。 最 高 阶 的 多 项 式 (六 次 多 项 式 ) 
给 出 了 正确 的 拟 合 ， 但 是 给 定 更 多 数据 ， 真 实 的 曲线 很 可 能 不 是 这 种 形状 。 二 次 
多 项 式 看 起 来 比 线性 拟 合 好 ， 它 捕获 了 训练 数据 的 走势 


2.7 ”模型 选择 与 泛 化 
我 们 用 从 实例 学 习 布尔 函数 作为 例子 开始 。 在 布尔 函数 中 ， 所 有 的 输入 和 输出 均 为 二 元 
的 。d 个 二 元 值 有 2“ 种 可 能 的 写法 。 因 此 ， 对 于 4 个 输入 ， 训 练 集 最 多 能 有 2 个 样本 实例 。 


如 表 2-1 所 示 ， 其 中 的 每 一 位 都 能 标记 为 O 或 1， 因 而 对 于 d 个 输入 ， 将 有 2” 个 可 能 的 布尔 
函数 。 
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表 2-1 2 个 输入 存在 4 种 可 能 的 情况 和 16 种 可 能 的 布尔 函数 


he | h | h [h | ho f hn | Aa | ms | Be | is | Be 
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每 一 个 不 同 的 训练 样本 都 会 去 掉 一 半 的 假设 ， 即 去 掉 那些 猜测 出 错 的 假设 。 例 如 ， 假 定 
RMA x, =0，x, =1， 而 输出 为 0， 这 种 情况 就 去 掉 了 假设 h、hs、h,、h,、h,, 、 ha. hy 
his。 这 是 观察 学 习 的 一 种 途径 ; 随 着 我 们 看 到 更 多 的 训练 样 例 ， 我 们 逐步 去 掉 那 些 与 训练 
数据 不 一 致 的 假设 。 在 布尔 函数 的 情况 下 ， 为 了 最 终 得 到 单个 假设 ， 我 们 需要 看 到 所 有 的 
2 个 训练 样本 。 如 果 给 定 的 训练 集 只 包含 所 有 可 能 实例 的 二 个 小 子 集 ( 通 常情 况 就 是 如 此 ) ， 
也 就 是 说 ， 如 果 我 们 仅 对 少量 情况 知道 输出 应 该 是 什么 ， 则 解 是 不 唯一 的 。 看 到 N 个 样本 
实例 后 ， 还 有 2”…“" 个 可 能 的 函数 。 这 是 一 个 不 适 定 问题 (说 - posed problem), Jt db (t AEB 
本 身 不 足以 找到 唯一 解 。 

在 其 他 的 学 习 应 用 中 ， 在 分 类 、 回 归 中 也 存在 同样 的 问题 。 随 着 我 们 看 到 更 多 的 训练 实 
例 ， 我 们 对 潜在 函数 的 了 解 就 更 多 ， 并 且 我 们 从 假设 类 去 掉 更 多 不 一 致 的 假设 ， 得 是 我 们 还 
剩 下 许多 一 致 的 假设 。 

这 样 ， 由 于 学 习 是 一 个 不 适 定 问 题 ， 并 且 单 靠 数据 本 身 不 足以 找到 解 ， 因 此 我 们 应 该 
做 一 些 特别 的 假设 ， 以 便 得 到 已 有 数据 的 唯一 解 。 我 们 把 为 了 使 学 习 成 为 可 能 所 做 的 假 
设 集 称 为 学 习 算 法 的 归纳 偏 傅 (inductive bias) 。 引 入 归纳 偏 倚 的 一 种 途径 是 假定 一 个 假设 
类 。 在 学 习 家 用 汽车 类 时 ， 存 在 着 无 限 种 将 正 例 与 负 例 分 开 的 方法 。 假 定 矩 形 是 一 种 归 
纳 偏 倚 ， 而 后 假定 最 紧凑 的 矩形 就 是 另外 一 种 归纳 偏 倚 。 在 线性 回归 中 ， 假 定 线性 函数 
也 是 一 种 归纳 偏 倚 。 

然而 ， 我 们 知道 ， 每 个 假设 类 都 有 一 定 的 能 力 ， 并 且 只 能 够 学 习 确 定 的 函数 。 使 用 具 
有 更 大 能 力 、 包 含 更 复杂 的 假设 的 假设 类 ， 可 以 扩充 可 学 习 的 函数 类 。 例 如 ， 假 设 类 
“两 个 互 不 重 登 的 矩形 的 并 ”具有 更 大 的 能 力 ， 但 是 其 假设 也 更 加 复杂 。 类 似 地 ， 在 回归 
分 析 中 ， 随 着 多 项 式 的 阶 增高 ， 其 能 力 和 复杂 性 也 不 断 增加 。 现 在 的 问题 是 要 决定 在 哪 
里 停止 。 

因此 ， 如 果 没 有 归纳 偏 倚 ， 则 学 习 将 是 不 可 能 的 ， 而 且 现 在 的 问题 是 如 何 选择 正确 的 偏 
倚 。 该 问题 称 作 模型 选择 ( model selection) 。 对 于 这 种 问题 的 解答 ， 我 们 应 当 记 住 机 器 学 习 
的 目标 很 少 是 去 复制 训练 数据 ， 而 是 预测 新 情况 。 也 就 是 说 ， 我 们 希望 对 于 训练 集 之 外 的 输 
和 人 (其 正确 的 输出 并 没有 在 训练 集中 给 出 ) 能 够 产生 正确 的 输出 。 训 练 集 上 训练 的 模型 在 多 
大 程度 上 能 够 对 新 的 实例 预测 出 正确 输出 称 为 泛 化 ( generalization) 。 

对 最 好 的 泛 化 来 说 ， 我 们 应 当 使 假设 的 复杂 性 与 潜在 数据 的 函数 的 复杂 性 相 匹 配 。 如 果 
假设 没有 函数 复杂 ， 例 如 ， 当 试图 用 直线 拟 合 从 三 次 多 项 式 抽取 的 数据 时 ， 则 是 大 拟 合 
(underfitting) 。 这 种 情况 下 ， 随 着 复杂 性 的 增高 ， 训 练 误差 和 确认 误差 都 会 降低 。 但 是 ， 如 
果 我 们 的 假设 太 过 复杂 ， 数 据 不 足以 约束 该 假设 ,我 们 最 后 也 许 得 到 不 好 的 假设 。 例 如 ， 当 
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用 两 个 矩形 拟 合 从 一 个 矩形 抽取 的 数据 时 ， 这 种 情况 就 会 发 生 。 或 者 如 果 存 在 噪声 ， 则 
过 分 复杂 的 假设 可 能 不 仅 学 习 潜在 的 函数 ， 而 且 也 学 习 数 据 中 的 噪声 ， 导 致 很 差 的 拟 合 。 
例如 ， 用 六 次 多 项 式 拟 合 从 三 次 多 项 式 抽样 的 噪声 数据 时 ， 这 种 情况 就 会 发 生 。 这 称 为 
过 (分 ) 拟 合 (overfitting) 。 在 这 种 情况 下 ， 拥 有 更 多 的 训练 数据 是 有 帮助 的 ， 但 是 只 能 达 
到 一 定 程度 。 

我 们 可 以 引用 三 元 权衡 (triple trade-off) ( Dietterich 2003 ) 来 总 结 我 们 的 讨论 。 在 所 有 的 
由 实例 数据 训练 的 学 习 算 法 中 ， 存 在 以 下 三 种 因素 之 间 的 平衡 : 

e _ 拟 合 数据 的 假设 的 复杂 性 ， 即 假设 类 的 能 力 ; 

”训练 数据 的 总 量 ; 

”在 新 的 实例 上 的 泛 化 误差 。 

随 着 训练 数据 量 的 增加 ， 泛 化 误差 降低 。 随 着 模型 复杂 性 的 增加 ， 泛 化 误差 先 降低 ， 然 
后 开始 增加 。 过 于 复杂 的 假设 的 泛 化 误差 可 以 通过 增加 训练 数据 的 总 量 来 控制 ， 但 是 只 能 达 
到 一 定 程度 。 

如 果 我 们 访问 训练 集 以 外 的 数据 我 们 就 能 够 度量 假设 的 泛 化 能 力 ， 即 归纳 偏 倚 的 质 
量 。 我 们 通过 将 训练 集 划 分 为 两 个 部 分 来 模拟 这 一 过 程 。 我 们 使 用 一 部 分 作 训 练 ( 即 找 出 假 
设 )， 剩 下 的 部 分 称 作 确认 集 ( validation set) ， 并 用 来 检验 假设 的 泛 化 能 力 。 假 定 训练 集 和 确 
认 集 都 足够 大 ， 则 在 确认 集 上 最 精确 的 假设 就 是 最 好 的 假设 ( 即 具 有 最 佳 归 纳 偏 倚 的 假设 ) 。 
该 过 程 称 为 交叉 确认 (cross-validation) 。 例 如 ， 为 了 找 出 多 项 式 回归 的 正确 的 阶 ， 给 定 多 个 
不 同 阶 的 候选 多 项 式 ， 我 们 在 训练 集 上 求 出 它们 的 系数 ， 在 确认 集 上 计算 它们 的 误差 ， 并 取 
具有 最 小 确认 误差 的 多 项 式 作为 最 佳 多 项 式 。 

注意 ， 如 果 需 要 报告 反映 我 们 的 最 佳 模型 的 期 望 误差 的 话 ， 我 们 就 不 应 该 使 用 确认 误 
差 。 我 们 已 经 使 用 确认 集 来 选择 最 佳 模 型 ， 并 且 它 实际 上 已 经 成 为 训练 集 的 一 部 分 。 我 们 需 
要 第 三 个 数据 集 一 一 检验 集 (test set) ， 有 时 也 称 为 发 布 集 ( publication set) ， 它 包含 在 训练 或 
确认 阶段 未 使 用 过 的 数据 。 现 实生 活 也 有 类 似 的 情况 ， 例 如 我 们 选修 一 门 课 程 : 老师 在 讲授 
一 门 课时 ， 课 堂上 求解 的 例题 构成 了 训练 集 ， 考 试题 目 就 是 确认 集 ， 而 我 们 在 职业 生涯 中 解 
决 的 问题 则 是 检验 集 。 

在 第 14 章 ， 我 们 将 继续 讨论 如 何 评估 模型 的 错误 率 ， 以 及 当 我 们 没有 大 数据 集 来 划分 
成 两 部 分 或 三 部 分 时 ， 我 们 如 何 从 两 个 模型 中 选择 较 好 的 模型 。 





2.8 监督 机 器 学 习 算法 的 维 


现在 ， 让 我 们 来 总 结 并 归纳 上 述 要 点 。 我 们 有 样本 
X= ts (2.18) 

该 样本 是 独立 同 分 布 的 (independent and identically distributed, iid); 次 序 并 不 重要 ， 而 
所 有 的 实例 都 取 自 相同 的 联合 分 布 p(x，r) 。: 指示 N 个 实例 中 的 一 个 , a 是 任意 维 的 输入 ， 
而 二 是 相关 联 的 预期 输出 。 对 于 两 类 学 习 , 是 0/1; 对 于 K(K>2) 类 问题 ， 是 一 个 K 维 
二 元 向 量 (其 中 恰 有 一 维 为 1， 其 他 各 维 均 为 0) ; 在 回归 分 析 中 , n 是 一 个 实数 值 。 

我 们 的 目标 是 使 用 模型 g(x' | 0) 来 构建 一 个 的 好 的 、 有 用 的 近似 。 为 了 达到 预期 目 
标 ， 我 们 必须 做 出 三 个 决定 : 
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l. 学 习 所 使 用 的 模型 (model) ， 记 作 
g(x|0) 
其 中 ，g(*) 是 模型 ,x 是 输入 ,9 是 参数 。g(*) 定 义 假设 类 ， 而 9 的 特殊 值 示例 了 假设 类 中 
的 一 个 假设 。 例 如 ， 在 类 的 学 习 中 ， 我 们 把 矩形 当 作 模型 ， 其 4 个 坐标 值 构成 了 0。 在 线性 
回归 中 ,模型 是 输入 的 线性 函数 ， 其 斜率 和 截 距 是 从 数据 中 学 习 的 参数 。 模 型 (归纳 偏 倚 ) 
由 机 器 学 习 系 统 的 设计 者 根据 其 应 用 知识 背景 决定 ， 参 数 由 学 习 算法 ， 利 用 取样 于 实际 应 用 
的 训练 集 而 进行 调整 。 

2. 损失 函数 (loss function) L(-) ， 用 于 计算 预期 输出 与 给 定 参数 9 的 当前 值 时 我 们 对 
它 的 近似 g(x' | 69) 之 间 的 差 。 逼 近 误差 (approximation error) 或 损失 (loss) 是 各 单个 实例 之 上 
的 损失 之 和 

E(6|X) = Cr,g(216)) (2.19) 

在 输出 为 0/1 3609552] rp, LC) 检测 相等 或 不 等 ; 在 回归 分 析 中 ， 由 于 输出 是 数值 型 
值 ， 我 们 有 关于 距离 的 序 信息 ， 而 且 一 种 可 能 性 是 使 用 差 的 平方 。 

3. 最 优化 过 程 (optimization procedure) 求 解 最 小 化 近似 误差 的 9* 

O° = arg minE (6 |X) (2.20) 

其 中 arg min 返回 使 E 最 小 化 的 参数 值 。 在 回归 中 ， 我们 能 够 解析 地 求解 最 优化 问题 。 
使 用 更 复杂 的 模型 和 误差 函数 ， 我 们 需要 使 用 更 加 复杂 的 优化 方法 。 例 如 ， 基 于 梯度 的 方 
法 、 模 拟 退 火 或 遗传 算法 等 。 

为 了 做 好 上 述 工作 ， 必 须 满足 以 下 条 件 : 首先 ， 假 设 类 g(*) 应 当 足 够 大 ， 即 要 有 足够 
的 容量 ， 以 便 包 含 在 含 噪声 情况 下 产生 r 表示 的 数据 的 未 知 函数 。 第 二 ， 必 须 有 足够 的 训 
练 数据 ， 使 得 我 们 从 假设 类 中 识别 正确 (或 足够 好 ) 的 假设 。 第 三 ， 给 定 训练 数据 ， 我 们 应 
当 有 好 的 优化 方法 ， 以 便 找 出 正确 的 假设 。 

不 同 的 机 器 学 习 方 法 之 间 的 区 别 或 者 在 于 它们 假设 的 模型 (假设 类 /归纳 偏 倚 ) 不 同 ,或 
者 在 于 它们 所 使 用 的 损失 度量 不 同 ， 或 者 在 于 它们 所 使 用 的 最 优化 过 程 不 同 。 我 们 将 在 后 续 
的 章节 中 看 到 更 多 的 例子 。 


2.9 注释 


Mitchell 提出 了 解 空间 和 候选 排除 算法 ， 使 得 当 样本 实例 依次 给 出 时 ， 可 以 增 量 地 构 
gt SAG, 近期 的 评述 可 参见 Mitchell 1997, Hirsh( 1990) 讨论 了 当 实例 样本 受到 少量 噪声 
影响 时 ， 如 何 处 理解 空间 。 有 关机 器 学 习 最 早 的 研究 工作 之 一 是 Winston(1975 ) 提出 的 
“几乎 错过 ” (near miss) 思想。 几乎 错过 是 一 个 与 正 例 非常 相似 的 负 例 。 用 我 们 的 术语 ， 
几乎 错过 就 是 可 能 落 在 5 与 6 之 间 灰 色 区 域 的 实例 ， 并 且 相 对 于 普通 的 正 例 和 负 例 来 说 ， 
它们 对 学 习 可 能 更 有 用 。 与 此 相关 的 思想 是 主动 学 习 (active learning) ， 其 中 学 习 算 法 能 够 
自己 生成 实例 ， 并 要 求 被 标记 ， 而 不 像 在 其 他 学 习 算 法 中 那样 被 动 地 被 给 定 ( Angluin 
1988) (参见 习题 6) 。 

VC 维 在 20 世纪 70 年 代 初 由 Vapnik 和 Chervonenkis 提出 ， 新 近 的 相关 资源 是 Vapnik 
1995， 其 中 他 指出 “没有 什么 比 好 的 理论 更 实用 " 。 像 在 其 他 科学 领域 一 样 ， 这 也 在 机 器 学 
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习 领 域 得 到 了 证 实 。 你 不 必 急 于 使 用 计算 机 ; 你 可 以 使 用 纸张 、 铝 笔 也 许 还 需要 橡皮 擦 之 
类 的 东西 来 思考 ， 节 省 自己 的 时 间 ， 避 免 无 用 的 编程 。 

PAC 模型 由 Valiant(1984) 提 出 ,对 于 学 习 和 矩形 的 PAC 分 析 来 自 Blumer 等 (1989) 。 一 本 
涵盖 PAC 学 习 及 VC 维 的 计算 学 习 理论 的 好 教材 是 Kearns 和 Vazirani(1994) 。 


2.10 习题 


1. 编程 ， 实 现 由 给 定 训练 集 求解 A C。 

2. 设想 你 一 次 只 能 得 到 一 个 训练 实例 而 不 是 一 次 得 到 所 有 的 训练 实例 ， 请 问 这 种 情况 下 如 
何 增 量 地 调整 S 和 C? (提示: 参考 Mitchell 1997 中 的 候选 排除 算法 。) 

3. 为 什么 使 用 S 和 G 的 平均 值 作为 最 终 假设 比较 好 ? 

4. 假定 我 们 的 假设 类 是 圆 而 不 是 和 矩形。 参数 是 什么 ? 这 种 情况 下 如 何 计 算 圆 假设 的 参数 ? 
如 果 是 椭圆 又 如 何 ? 为 什么 用 椭圆 代替 圆 会 更 有 意义 ? 如 何 将 算法 推广 到 K>> 2 个 类 
情况 ? 

5. 设想 我 们 的 假设 类 不 是 一 个 矩形 而 是 两 个 (或 m1 个) 矩形 的 并 ,请 问 这 种 假设 类 优点 
何在 ? 说 明 使 用 足够 大 的 m， 任 何 类 都 能 够 由 这 种 假设 类 表示 。 

6. 如 果 我 们 拥有 能 够 给 任何 实例 x 提供 标记 的 指导 者 ， 那 么 我 们 应 当 在 哪里 选择 x*， 以 便 用 
较 少 的 询问 来 进行 学 习 ? 

7. 在 (2.12) 式 中 ， 我 们 对 实际 值 与 估计 值 之 差 的 平方 求 和 。 该 误差 函数 是 使 用 最 频繁 的 误 
差 函 数 ， 但 它 只 是 可 行 的 误差 函数 之 一 。 由 于 它 对 差 的 平方 求 和 ， 所 以 它 对 于 离 群 点 不 
是 鲁 棒 的 。 为 了 实现 鲁 棒 回 归 (robust regression) ， 更 好 的 误差 函数 是 什么 ? 

8. 请 推导 (2. 16) 式 。 

9. 假定 我 们 的 假设 类 是 直线 的 集合 ， 并 且 我 们 利用 直线 来 分 开 正 例 与 负 例 ， 而 不 是 用 和 矩形 
来 界定 正 例 ， 并 将 负 例 留 在 矩形 外 (参见 图 2-10) 。 证 明 直 线 的 VC 维 为 3。 





图 2-10 直线 分 割 正 例 样 本 与 负 例 样 本 


10. 证 明 在 二 维 空间 中 ， 三 角形 假设 类 的 VC 维 为 7。( 提 示 : 为 了 最 佳 分 割 ， 最 好 在 某 圆 上 
设置 7 个 等 距离 的 点 。) 
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BIE ” 贝 叶 斯 决策 定理 


我 们 讨论 在 不 确定 情况 下 决策 的 概率 理论 框架 。 在 分 类 中 ， 贝 叶 斯 规则 用 来 计算 类 的 概 
率 。 我 们 将 讨论 推广 到 怎样 做 出 合理 的 决策 将 期 望 风 险 最 小 化 。 我 们 还 介绍 贝 叶 斯 网 络 来 有 
效 地 表示 随机 变量 之 间 的 依赖 关系 。 


3.1 引言 


训练 计算 机 使 之 根据 数据 进行 推断 是 统计 学 和 计算 机 科学 的 交叉 领域 ， 其 中 ， 统 计 学 家 
提供 由 数据 推断 的 数学 框架 ， 而 计算 机 科学 家 研究 推断 方法 在 计算 机 上 如 何 有 效 地 实现 。 

数据 来 自 于 一 个 不 完全 清楚 的 过 程 。 将 该 过 程 作为 随机 过 程 建 模 表明 我 们 缺乏 知识 。 也 
许 该 过 程 是 确定 性 的 ， 但 是 因为 我 们 没有 获取 关于 它 的 完全 知识 的 途径 ， 所 以 我 们 把 它 作为 
一 个 随机 过 程 建 模 ， 并 且 用 概率 理论 来 分 析 它 。 说 到 这 ， 在 继续 阅读 本 章 之 前 先 跳 到 附录 ， 
温习 基本 的 概率 知识 也 许 是 一 个 好 主意 。 

投 硬 币 是 一 个 随机 的 过 程 ， 因 为 我 们 不 能 够 预测 任意 一 次 投 币 结果 是 正面 还 是 反面 
(这 就 是 为 什么 我 们 投 币 、 买 彩票 或 者 买 保险 的 原因 ) 。 我 们 只 能 谈论 下 一 次 投 币 是 正面 还 
是 反面 的 概率 。 有 证 据 显示 ， 如 果 我 们 取得 一 些 额 外 的 数据 ， 如 硬币 的 确切 成 分 ， 它 的 最 初 
位 置 ， 投 币 的 力量 和 投 币 的 方向 ， 何 处 以 及 如 何 接 住 等 等 ， 则 投 币 的 准确 结果 就 是 可 以 预 
测 的 。 

我 们 不 能 获取 的 那些 额外 的 数据 称 为 不 可 观测 的 变量 (unobservable variable) 。 在 投 币 的 
这 个 例子 中 ， 唯 一 可 观测 的 变量 (observable variable) 是 投 币 的 结果 。 用 z 表示 不 可 观测 的 变 
Jt, x 表示 可 观测 的 变量 ,事实 上 我 们 有 

x = f(z) 
其 中 , 用) 是 一 个 确定 性 函数 ， 它 定义 不 可 观测 数据 的 输出 。 因 为 我 们 不 能 用 这 种 方式 对 该 
过 程 建 模 ， 所 以 我 们 定义 输出 X 为 指明 该 过 程 、 由 概率 分 布 P(X =x) 抽 取 的 随机 变量 。 

投 币 的 结果 是 正面 或 是 反面 ， 而 我 们 定义 一 个 随机 变量 ， 在 两 个 值 中 取 值 。 令 六 =1 代 
表 投 币 的 结果 是 正面 ，X =O 代表 投 币 结果 是 反面 。X 服 从 伯 努 利 分 布 ， 其 中 参数 p 是 投 币 
结果 为 正面 的 概率 。 

P(X =1) =Po 并 有 全 P(XK=0) =1-P(X=1) =1-p, 

假设 要 预测 下 一 次 投 币 的 结果 。 如 果 我 们 知道 p。 的 值 ， 则 当 p 0.5 时 ， 预 测 将 是 正 
面 ， 否 则 是 反面 。 这 是 因为 ， 如 果 选 择 更 可 能 的 情况 ， 则 错误 的 概率 ， 即 1 减 去 选择 的 概 
率 ， 将 会 最 小 。 如 果 这 是 一 个 p, 20.5 的 公平 投 币 ， 则 我 们 没有 比 总 是 选择 正面 或 者 我 们 自 
己 做 公平 投 币 更 好 的 预测 手段 ! 

如 果 我 们 不 知道 P(X) ， 并 且 想 从 给 定 的 样本 估计 它 ， 就 需要 统计 学 知识 了 。 我 们 有 一 


个 样本 X， 包 含 由 可 观测 变量 * 的 概率 分 布 ( 记 作 P(x) ) 抽 取出 的 样 例 。 目 的 是 使 用 样本 xX 
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构造 一 个 它 的 近似 jx) o 
在 投 币 例 子 中 ， 样 本 包含 了 六 次 投 币 的 结果 。 然 后 利用 X， 我 们 可 以 估计 mn。pPe 是 唯一 
定义 该 分 布 的 参数 。Ps 的 估计 是 
DEREETTTITILI 





d #{ RA] 
使 用 数值 随机 变量 ， 如 果 投 币 + 的 结果 是 正面 ， 则 * 为 1， 否 则 为 0。 给 定 样本 { 正面 ， 正 
m, 正面 , 反面 , 正面, 反面 , 反面 , 正面, 正面 |, 则 X= {1, 1, 1, 0, 1, 0, 0, 1, 1}, 
并 且 
NS 
E. 
3.2 分 类 


在 1.2.2 节 ， 我 们 讨论 了 信用 评分 。 在 那里 我 们 看 到 ， 根 据 过 去 的 交易 ， 银 行 的 某 些 客 
户 是 低 风险 的 ， 因 为 他 们 还 清 了 贷款 并 且 银行 从 他 们 那里 获 利 ; 其 他 客户 是 高 风险 的 ， 因 为 
他 们 不 能 偿还 贷款 。 分 析 这 些 数据 ， 我 们 想 学 习 “ 高 风险 客户 ”类 ， 使 得 未 来 有 新 的 贷款 
申请 时 ， 我 们 可 以 检查 申请 者 是 否 符合 “高 风险 客户 ”类 的 描述 ， 并 据 此 决定 接受 还 是 拒 
绝 该 申请 。 使 用 关于 申请 的 知识 ， 我 们 假定 有 两 种 信息 是 可 观测 的 。 我 们 观测 它们 是 因为 我 
们 有 理由 相信 它们 为 我 们 提供 了 客户 信用 信息 。 例 如 ， 我 们 假定 我 们 观测 客户 的 年 收入 和 存 
款 ， 它 们 分 别 用 随机 变量 X, AX, 表示 。 

可 以 断言 ， 如 果 我 们 能 够 获得 客户 的 其 他 知识 ， 比 如 关于 客户 经 济 状况 的 全 部 细节 和 全 
部 知识 ， 他 /她 的 意图 、 道 德 规范 等 等 ， 则 我 们 可 以 确定 地 计算 出 客户 是 “ 低 风险 客户 ”还 
是 “高 风险 客户 "。 但 是 ， 这 些 是 不 可 观测 的 ， 而 使 用 我 们 能 够 观测 的 信息 ， 客 户 的 信用 可 
以 用 观测 条 件 X - X, X] 下 的 伯 努 利 随机 变量 C 表示 ， 其 中 C = 1 表示 高 风险 客户 ， 
C=0 表 示 低 风险 客户 。 如 果 我 们 知道 PCC | X,, X), WX, =x, M X, = 2, 的 新 申请 
到 达 时 ， 我 们 可 以 


aafe] 如 果 P(C =1|x,x,) >>0.5 
C =0 否则 
或 等 价 地 
ae eR P(C = 1|x,,2,) >P(C = 0|x,,x,) (3.1) 
C =0 否则 


错误 的 概率 是 1 - max(P(C =1 |x,，x,)，P(C=0 |x,，x,))。 这 个 例子 与 抛 硬 币 的 例 
子 类 似 ， 只 是 伯 努 利 随 机 变量 C 是 在 两 个 其 他 观测 变量 条 件 下 的 随机 变量 。 我 们 用 x 表示 
观测 变量 向 量 x = [x, ，x,]”"。 于 是 ， 问 题 是 要 能 够 计算 P(C |x)。 使 用 贝 叶 斯 规则 ， 它 可 以 
表示 为 


p(C |x) = AOLO (2223/8 


P(C =1) 称 为 C 取 值 1 的 先 验 概率 (prior probability) 。 在 我 们 的 例子 中 ， 它 对 应 客户 是 
高 风险 客户 的 概率 ， 而 不 管 x+ 取 什么 值 。 称 它 为 先 验 概率 ， 是 因为 它 是 我 们 看 到 观测 量 x 之 








40 











41 

















42 








28 RIX 





前 就 获得 的 关于 C 值 的 知识 ， 满 足 
P(C =0) +P(C =1) =1 

P(x | C) 称 为 类 似 然 (class likelihood) ， 是 属于 C 的 事件 具有 相关 联 的 观测 值 x 的 条 件 概 
率 。 在 我 们 的 例子 中 ,p(x,，x; | C =1) 是 高 风险 客户 具有 X, =x, X=, 的 概率 。 这 就 是 
通过 数据 我 们 得 到 的 关于 类 的 信息 。 

P(z) 是 证 据 (evidence) ， 是 看 到 观测 x 的 边缘 概率 ， 无 论 它 是 正 实例 还 是 负 实例 。 

p(x) =p(x|C = 1)P(C =1) +p(x|C = 0)P(C =0) (3.3) 

使 用 贝 叶 斯 规则 ， 组 合 先 验 知识 和 数据 告诉 我 们 的 ， 在 看 到 观测 x 之 后 ， 计 算 概念 的 后 

验 概率 (posterior probability) P(C | x) o 
x 似 
后 验 = texi 然 值 
由 于 用 证 据 规范 化 ， 后 验 的 和 为 1 : 
P(C =0|x) +P(C =1|x) =1 

一 旦 得 到 后 验 概率 ， 我 们 就 可 以 使 用 (3. 1) 式 进行 决策 。 从 现在 起 ， 我 们 假定 我 们 知道 
先 验 和 似 然 。 在 稍 后 的 章节 中 ， 我 们 会 讨论 如 何 从 训练 样本 估计 P(C) 和 p(x |C)。 

在 一 般 情况 下 ,我 们 及 个 互 斥 和 穷 举 的 类 C, i=l, =, K; 例如 ， 在 光学 数字 识别 
中 ,输入 是 一 个 位 图 图 像 有 10 个 类 。 我 们 得 到 先 验 概率 满足 : 


x 
P(C) =0 #8 P(C,) 21 (3.4) 


p(x | C,) 是 已 知 属于 类 C, RA x 作为 输入 的 概率 。 类 C, 的 后 验 概率 计算 如 下 
_p(x|C)P(C) _ p(x|C)P(C.) 


P(C,|x) = -d 
i Dts! PCG) 


而 为 了 将 误差 最 小 化 ， 贝 叶 斯 分 类 器 ( Bayes” elassifier) 选 择 具有 最 高 后 验 概率 的 类 ; 即 
选择 C, 如 果 P(C, |x) = maxP(C, |x) (3.6) 





(3.5) 


3.3 损失 与 风险 


决策 的 好 坏 程 度 或 代价 可 能 不 同 。 金 融 机 构 对 一 个 贷款 申请 人 做 出 决定 时 会 把 潜在 的 收 
益 和 损失 考虑 在 内 。 接 受 一 个 低 风险 的 申请 人 会 增加 收益 ， 而 拒绝 一 个 高 风险 的 申请 人 会 减 
小 损失 。 错 误 地 接受 一 个 高 风险 的 申请 人 带 来 的 损失 与 错误 地 拒绝 一 个 低 风险 的 申请 人 带 来 
的 潜在 收益 是 不 同 的 。 这 种 情况 在 其 他 领域 ， 如 医疗 诊断 、 地 震 预 测 等 ， 显 得 更 加 至 关 重要 
并 且 是 非常 不 对 称 的 。 

让 我 们 定义 动作 oc, 为 把 输入 指派 到 类 C, 的 决策 ， 而 As 为 输入 实际 属于 C, 时 采取 动作 
a, 导致 的 损失 (loss) 。 采 取 动作 a, 带 来 的 期 望 风险 (expected risk) 是 





R(a,|x) = Z aPC, lx) (3.7) 


并 且 我 们 选择 具有 最 小 风险 的 动作 : 
选择 Qs 如果 R(a,| x) = minR(a, | x) (3.8) 
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让 我 们 定义 天 个 动作 a, i=1, =, K, Hp a 是 把 zx 指派 到 C, 的 动作 。 在 0 -1 损失 
(zero-one loss) 这 种 特殊 情况 下 ， 其 中 
ae 0 如果 = 下 (3.9) 
1 pRixk 
所 有 正确 的 决策 没有 损失 ， 并 且 所 有 错误 具有 相同 的 代价 。 采 取 动作 a, 的 风险 是 


R(a, |æ) = PIC, |x) 


= Dre |x) 
1 - P(C, |x) 


因为 XP, lx) = 1。 所 以 为 了 将 风险 最 小 化 ， 我 们 选择 最 有 可 能 的 情况 。 在 后 面 章节 


中 ， 为 了 简单 起 见 ， 我 们 一 直 假定 这 种 情况 ， 并 且 选 择 具有 最 高 后 验 的 类 ， 但 是 注意 ， 这 确 
实 是 一 种 特殊 情况 ， 并 且 很 少 应 用 具有 对 称 的 0-1 损失 。 在 一 般 情况 下 ， 由 后 验 到 风险 并 且 
采取 将 风险 最 小 化 的 动作 是 一 种 简单 的 后 处 理 。 

在 一 些 应 用 中 ， 错 误 的 决策 ( 即 误 分 类 ) 也 许 会 有 很 高 的 代价 。 一 般 情况 下 ， 如 果 自 动 
系统 对 它 的 决策 的 把 握 较 低 ， 则 需要 一 个 更 复杂 (例如 和 人工 的 ) 决 策 。 例 如 ， 如 果 我 们 使 用 
光学 数字 识别 器 来 读 取信 封 上 的 邮编 号 码 ， 则 错误 地 识别 邮政 编码 将 导致 信件 被 发 送 到 一 个 
错误 的 目的 地 。 

在 这 种 情况 下 ， 我 们 定义 一 个 附加 的 拒绝 (reject) 或 疑 起 (doubt) 动作 ak,,， 而 w(i= 


1, 5, K)AHESS C,(i=1，…, KK) 上 的 通常 的 决策 动作 (Duda、Hart 和 Stork 2001) 。 
一 个 可 能 的 损失 函数 是 
0 如果 i = 
uefa PRi=K+1 (3.10) 
1 否则 
SEP OSA <1 是 选择 第 (K+1) 个 拒绝 动作 导致 的 损失 。 拒 绝 的 风险 是 
Rag. |x) = Zar la =A (3.11) 


而 选择 类 C, 的 风险 是 
R(a; |x) = PHACA =1-P(C,|x) (3.12) 
最 优 决策 规则 是 
选择 C。 Bec TEES AiR R(a,|x)<R(a,1 x), $ 
R(a, | x) <R(ar | x) 
拒绝 HOR Rag, |X) <R(a,|x),i = 1, K (3.13) 
给 定 (3. 10) 式 的 损失 函数 ， 上 式 可 以 简化 为 
选择 C。 如 果 对 于 所 有 的 上 AiR PCC, | x) - P(C, | x) ,并且 
P(C,|x)>1-A 
拒绝 GR (3.14) 
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当 0 < <1 时 ， 这 个 方法 是 有 意义 的 : 当 A =0 时 ,我 们 总 是 拒绝 ; 拒绝 和 正确 的 分 类 
是 同样 好 的 。 当 入 >=1 时 ,我 们 从 不 拒绝 ; 拒绝 与 错误 的 代价 相同 甚至 超过 错误 的 代价 。 


3.4 判别 式 函数 


分 类 也 可 以 看 作 是 实现 一 组 判别 式 函 教 (discriminant function) g,(x)(i=1, =, K) (EH 
我 们 
选择 Ci, 如果 gu (x) = max (x) (3.15) 
令 
g:(x) =-R(a,|x) 
我 们 可 以 重新 给 出 贝 叶 斯 分 类 器 ， 并 且 最 大 化 判别 式 函数 对 应 最 小 化 条 件 风险 。 当 我 们 使 用 
0-1 损失 函数 时 ， 我 们 有 
g(x) = P(C, |x) 
或 者 忽略 公共 规范 化 项 p(x) ， 我 们 可 以 写 为 
g(x) = p(x | C,)P(C,) 
3x EU KE 2s [6] Jo Z3 ji, KARR BIR ( decision region) Ri, =, Rx, JEH R, = (x | g(x) = 
max,g,(*) | 。 这 些 区 域 被 决策 边界 ( decision boundaries) ， 即 特征 空间 中 的 曲面 分 隔 开 ， 其 
中 平局 出 现在 最 大 判别 式 函数 之 间 ( 参 见 图 3-1) 。 
* 








图 3-1 决策 区 域 和 决策 边界 的 例子 


当 有 两 个 类 的 时 候 ， 我 们 可 以 定义 单个 判别 式 
g(x) = g(x) - g(x) 


并 且 我 们 
C, wR e(x)>0 
C， 否则 
一 个 例子 是 两 类 学 习 问 题 ， 其 中 正 例 可 以 表示 为 C, ， 负 例 表 示 为 C:。 当 天 =2 时 ， 分 类 
系统 是 一 个 两 分 器 ( dichotomizer) ， 当 K=3 时 ， 它 是 一 个 多 分 器 (polychotomizer) 。 
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3.5 效用 理论 


在 (3.7) 式 中 ,我 们 定义 了 期 望 风险 并 且 选 择 最 小 化 期 望 风 险 的 动作 。 现 在 ， 我 们 把 它 
推广 到 效用 理论 ， 它 涉及 我 们 对 状态 不 确定 时 所 做 出 的 合理 决策 。 我 们 假设 给 定 证 据 *， 状 
态 3, 的 概率 用 PCS, |x) 计 算 。 我 们 定义 一 个 效用 函数 (utility function) Us ， 它 度量 当 状态 为 
S, 时 采取 动作 a, 的 好 处 。 期 望 效用 (expected utility) JE 


EU(a,|x) = > UuP(S, |x) (3. 16) 
一 个 合理 的 决策 者 选择 最 大 化 期 望 效 用 的 动作 
选择 ,如 果 EUCa, |x) = maxEU(a | x) (3.17) 


对 于 分 类 ， 决 策 对 应 选择 类 中 的 一 个 ， 并 且 最 大 化 期 望 效 用 等 价 于 最 小 化 期 望 风险 。 
UV 一般 用 货币 术语 度量 ， 并 且 这 也 为 我 们 提供 了 一 种 定义 损失 矩阵 A。 的 途径 。 例 如 ， 在 我 
们 定义 拒绝 选项 (3. 10 式 ) 时 ， 根 据 我 们 的 特定 应 用 ， 如 果 我 们 知道 一 个 正确 决策 能 给 我 们 
带 来 多 少 钱 的 收益 ， 一 个 错误 决策 将 使 我 们 损失 多 少 钱 ， 还 有 把 决策 委托 给 人 类 专家 的 代价 
多 大 ， 那 么 我 们 就 能 用 货币 单位 ， 而 不 是 用 0、A 和 1 填写 VU 的 正确 值 ， 并 且 做 出 我 们 的 决 
策 来 最 大 化 期 望 收益 。 

对 于 拒绝 ， 我 们 在 计算 机 程序 做 出 的 自动 决策 和 代价 较 大 但 是 正确 可 能 性 更 高 的 人 类 决 
策 之 间 选 择 。 类 似 地 ， 可 以 设想 一 条 多 个 自动 决策 者 的 流水 线 ， 我 们 处 理 起 来 代价 比较 高 ， 
但 是 正确 的 机 会 更 大 。 

注意 ， 最 大 化 期 望 效用 只 是 一 种 可 能 的 方法 ; 我 们 也 可 以 定义 其 他 类 型 的 合理 行为 ， 例 
如 ， 最 小 化 最 坏 的 可 能 损失 。 


3.6 信息 值 


在 医疗 诊断 中 ， 对 一 个 病人 可 以 有 多 种 检查 。 测 量 脉搏 没有 开销 ， 但 是 验 血 的 开销 很 
大 ,不 仅 是 化 验 费 用 ， 而 且 给 病人 带 来 不 便 。 然 而 ， 验 血 可 以 为 我 们 提供 更 多 信息 。 一 般 来 
说 ， 我 们 假定 所 有 的 可 观测 特征 都 会 被 观测 ， 但 情况 并 非 总 是 如 此 。 某 些 特征 ， 如 医疗 诊断 
中 的 验 血 ， 观 测 的 开销 很 大 ， 并 且 仅 当 我 们 确实 需要 时 才 进行 观测 。 因 此 ， 我 们 希望 能 够 评 
估 附 加 特征 可 能 提供 的 信息 。 

假设 我 们 有 已 经 观测 的 特征 *， 那 么 当前 最 好 动作 的 期 望 效用 是 

EU(x) = max J, U,P(S, |x) 


如 果 我 们 观测 了 新 的 特征 *， 并 将 它 与 一 起 使 用 ， 则 当前 最 好 动作 的 期 望 效用 是 
EU(x,2) = max Y, U,PCS, | x,2) 


如 果 EU(r，z)> EU(x)， 则 我 们 可 以 说 :是 有 用 的 ， 并 且 它 们 的 差 是 :提供 的 信息 什 
(value of information) 。 但 是 我 们 也 应 该 考虑 观测 和 处 理 z 的 开销 : PCS, | x, z) i x 和 :两 
者 , HAL PCS, | x) BRR. DOS z 的 贡献 比 它 的 附加 的 复杂 度 更 值得 的 时 候 ， 我 们 才 会 把 
它 作为 新 特征 引入 。 
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3.7 贝 叶 斯 网 络 


贝 叶 斯 网 络 ( Bayesian network) ， 又 称 信念 网 络 (belief network) 或 概率 网 络 (probabilistic 
network) ， 是 表示 变量 之 间 相 互 作用 的 图 形 模型 (graphical model) 。 一 个 贝 叶 斯 网 络 由 节点 
和 节点 之 间 的 弧 组 成 。 每 个 节点 对 应 一 个 随机 变量 了， 并 且 具 有 一 个 对 应 该 随机 变量 的 概率 
值 P(X) 。 如 果 存 在 一 条 从 节点 下 到 节点 了 的 有 向 弧 ， 则 表明 于 对 Y 有 直接 影响 (direet 
influence) 。 该 影响 被 条 件 概率 P( 了 | 工 ) 所 指定 。 网 络 是 一 个 有 向 无 环 图 ( directed acyclic 
graph) ， 即 图 中 没有 环 。 节 点 和 节点 之 间 的 弧 定义 了 网 络 的 结构 ， 而 条 件 概率 是 给 定 结构 的 
参数 。 

一 个 简单 的 例子 由 图 3-2 给 出 ， 它 对 下 雨 (R) 引起 草地 变 湿 (WW) 建 模 。 天 下 雨 的 可 能 性 
为 40%， 并且 下 雨 时 草地 变 湿 的 可 能 性 为 90% ; 也 许 10% 的 时 间 雨 下 得 不 长 ， 不 足以 让 我 
们 真正 认为 草地 被 淋 湿 了 。 在 这 个 例子 中 ， 随 机 变量 是 二 元 的 : 真 或 假 。 存 在 20% 的 可 能 
性 草地 变 湿 而 实际 上 并 没有 下 雨 ， 例 如 ， 使 用 喷 水 器 时 。 


P (WIR) =09 
P (WI~R) =02 


图 3-2 对 下 雨 是 湿 草 地 的 原因 建 模 的 贝 叶 斯 网 络 


我 们 可 以 看 到 三 个 值 就 可 以 完全 指定 PCR, W) 的 联合 分 布 。 如 果 P(R) = 0.4， 则 
P(~R) =0.6。 类 似 地 ,，P(~W|R) =0.1, 而 P(~W|~R) =0.8。 
这 是 一 个 因果 图 (causal graph) ， 解 释 草 地 变 湿 的 主要 原因 是 下 雨 。 贝 叶 斯 法 则 允许 我 
们 颠倒 因果 关系 并 且 做 出 诊断 (diagnosis) 。 例 如 ， 已 知 草地 是 湿 的 ， 则 下 过 雨 的 概率 可 以 计 
算 如 下 : 
P(W|R)P(R 
rate) = PC oec 
a P(W|R)P(R) 
~ P(W[R)P(R) + PCW |- R)P(- R) 


0.9 x0.4 
^069x04402x0.6 "> 


分 母 P( 了) 是 草地 变 湿 的 概率 ， 不 管 是 否 下 过 雨 。 注 意 ， 已 知 草地 是 湿 的 把 下 雨 的 概率 
由 0. 4 增加 到 0.75， 这 是 因为 PCW | R) B, Ti PCW |- R) 1K. 

现在 ,假设 我 们 想 把 喷 水 器 (5) 作 为 草地 变 湿 的 另 一 个 原因 ， 如 图 3-3 所 示 。 节 点 四 有 
两 个 父 节点 R 和 5， 因 此 它 的 概率 是 这 两 个 值 上 的 条 件 概率 P(W|R，5)。 我 们 可 以 计算 喷 
水 器 开 着 草地 会 湿 的 概率 ， 无 须知 道 是 否 下 过 雨 。 这 是 一 个 因果 (预测 ) 推 理 : 
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P(W|S) = P(W|R,S)P(R|S) + P(W|- R,S)P(-R|S) 
= P(W|R,S)P(R) + P(W|~R,S)P(~R) 
= 0.95 x0.4+0.9 x0.6 =0.92 


P (S) =02 P (R) =04 






P (WIRS) =095 
P (WIR ~S) =0.90 
P (WI~RS) =0.90 
P (WI~R~S) =0.10 


图 3-3 FOAM KBAR OTR 


其 中 P(R|S) =P(R) ， 因 为 根据 图 3-3，R 和 5 是 独立 的 。 给 定 草地 是 湿 的 ， 我 们 能 够 计算 
喷 水 器 开 着 的 概率 。 这 是 一 个 诊断 推理 


P(S|w) = POE Sets) a E ze = 0.35 


其 中 
P(W) = P(W|R,S)P(R,S) + P(W|-R,S)P(-R,S) 
+ P(W|R,-S)P(R,-S) + P(W|~R,~S)P(~R,~S) 
= P(W|R,S)P(R)P(S) + P(W|-R,S)P(-R)P(S) 
+ P(W|R,~S)P(R)P(~S) + P(W|~R,~S)P(~R) P(~S) 
= 0.95 x0.4 x 0.2 +0.9 x 0.6 x0.2 +0.9 x0.4 x0.8 +0.1 x0.6 x0.8 
= 0.52 
知道 草 是 湿 的 增加 了 喷 水 器 开 着 的 可 能 。 现 在 让 我 们 假设 下 过 雨 ， 我 们 有 
P(S|R,W) = Poner x rU HES) 
注意 ， 这 个 值 比 PCS | W) 小 。 这 叫 作 解释 远离 (explaining away); 给 定 我 们 已 知 下 过 雨 ， 
则 喷 水 器 导致 湿 草 地 的 可 能 性 降低 了 。 已 知 草地 是 湿 的 ， 下 雨 和 喷 水 器 成 为 相互 依赖 的 。 
图 3-3 表示 R ALS 是 互相 独立 的 。 然 而 ,我 们 可 以 认为 它们 实际 上 依赖 于 另外 一 个 变量 
的 出 现 : 如 果 可 能 下 雨 的 话 ， 我 们 通常 不 把 喷 水 器 打开 。 所 以 ， 一 个 更 好 的 图 在 图 3-4 给 
出 。 如 果 是 阴 天 ， 有 可 能 会 下 雨 ， 我 们 可 能 会 发 现 喷 水 器 是 关 着 的 。 例 如 ， 我 们 能 够 计算 如 
果 是 阴 天 ， 草 地 湿 的 概率 : 
P(W|C) = P(W|R,S,C)P(R,S|C) + P(W|~R,S,C)P(~R,S |C) 
+ P(W|R,~S,C)P(R,~S|C) + P(W|-R,-S,C)P(-R,-S|C) 
= P(W|R,S)P(R|C)P(S|C) + P(W|~R,S)P(~R| C)P(S|C) 
+ P(W|R,~S)P(R| C)P(-S| C) 
+ P(W|~R,~S)P(~R| C)P(~S|C) 





= 0.21 
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HP, BER, S, WHF C， 我 们 使 用 了 P(W|R, S, C) -P(W|R, S). 3806, 给 
ÆC, RAMS Mir, P(R,，S1C) =P(R|C)P(S1C)。 这 是 贝 叶 斯 网 络 的 优点 ， 它 明确 


地 表示 了 独立 性 ， 并 且 使 得 我 们 能 够 将 推断 分 解 成 若干 变量 小 组 上 的 计算 。 
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P (C) =05 


P (RIC) =08 


P (SIC) =01 
P (RI-C) =0.1 


P (SI-C) =0.5 


P (WI RS) =0.95 
P (WIR~S) =0.90 
P (WI-RS) =0.90 
P (WI~-R~S) =0.10 


图 3-4 如 果 阴 天 ， 可 能 会 下 雨 ， 我 们 就 不 会 使 用 喷 水 器 


根据 我 们 能 够 观测 到 的 ， 我 们 可 以 使 网 络 更 加 详细 。 例 如 ， 我 们 也 许 有 一 只 猫 ， 它 喜欢 
在 房 顶 上 走动 并 发 出 噪声 ( 即使 房 顶 不 是 铁皮 的 ); 下 雨 时 猫 不 出 去 (图 3-5) 。 于 是 ， 例 如 给 


定 阴 天 ， 我 们 能 够 计算 听见 猫 在 房 顶 上 走动 (F) 的 概率 PCF | C) ， 甚 至 计算 P(F|5)。 
P (C) =05 





P (RIC) —08 


P (SIC) =0.1 
P (RI-C) =0.1 


P (SI-C) =0.5 


P (WIRS) =095 P (FIR) =0.1 
P (WIR~S) —090 PCFI-R) =0.7 
P (WI-RS) =0.90 
P (WI-R~S) =0.10 


图 3-5 TRURDUESHERORAEIE, TL E T W E Be EH RB 
这 种 图 形 表示 很 形象 ， 并 且 有 助 于 理解 。 这 个 网 络 描述 了 条 件 独立 性 ， 并 且 允 许 我 们 将 


多 个 变量 的 联合 分 布 的 问题 分 解 成 局 部 (local) 结 构 ; 这 简化 了 分 析 和 计算 。 图 3-5 表示 了 一 
个 五 个 二 元 变量 的 联合 密度 ， 它 通常 需要 存储 31 个 值 (2 -1) ， 然 而 这 里 只 有 11 个 。 如 果 
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每 个 节点 只 有 少量 的 父 节点 ， 则 复杂 度 由 指数 降 到 线性 ( 按 节点 数 )。 正 如 我 们 在 前 面 所 看 
到 的 ， 当 联合 密度 分 解 成 较 小 变量 组 的 条 件 密度 时 ， 推 断 也 会 变 得 更 容易 : 
P(C,S,R,W,F) = P(C)P(S|C)P(R|C)P(W|S,R)P(F|R) (3.18) 
虽然 在 这 个 例子 中 我 们 用 的 是 二 元 变量 ， 但 是 显然 这 些 变量 可 以 是 具有 任意 多 个 可 能 值 
的 离散 变量 ,或 者 是 连续 变量 。 这 只 是 改变 了 条 件 概率 。 在 一 般 情况 下 ， 当 我 们 有 变量 
X, XB, 


4 
P(X, sX) = IIa. | parents( X,) ) (3.19) 


REX 的 任意 子 集 ， 即 根据 证 据 赋 予 它们 一 定 的 值 ， 通 过 边缘 化 联合 分 布 ， 我 们 可 以 
计算 X, 的 其 他 子 集 的 概率 分 布 。 这 开销 很 大 ， 因 为 它 需 要 计算 指数 多 个 联合 概率 组 合 ， 即 
使 每 个 都 能 像 (3. 18 ) 式 那样 被 简化 。 存 在 一 种 称 作 信念 传播 ( belief propagation) 的 有 效 的 算 
法 (Pearl 1988) ， 当 网 络 是 树 时 ， 我 们 可 以 用 它 来 推断 。 还 有 一 个 算法 ， 通 过 聚 类 变量 ， 把 
给 定 的 有 向 无 环 图 转化 成 一 棵 树 ， 称 作 结 树 (junction tree)， 使 得 信念 传播 能 够 完成 
(Lauritzen 和 Spiegelhalter 1988) 。 

使 用 贝 叶 斯 网 络 的 一 个 主要 优点 是 我 们 不 必 明 确 指定 某 些 变量 作为 输入 ， 某 些 其 他 变量 
作为 输出 。 任 何 变量 集 的 值 都 能 通过 证 据 建立 ， 而 任何 其 他 变量 集 的 概率 都 可 以 推断 ， 并 且 
非 监督 学 习 和 监督 学 习 之 间 的 区 别 变 得 模糊 不 清 。 

需要 强调 一 点 ， 从 节点 下 到 了 的 链 不 是 ， 也 不 必 总 是 意味 因果 关系 P(C) 
(causality) 。 它 只 是 意味 着 在 了 的 概率 以 X (DS ARH, XEY 
上 有 直接 影响 (direct influence) ， 并 且 即 使 没有 直接 的 原因 ， 两 个 节点 之 
间 仍 可 能 有 一 个 边 。 通 过 提供 关于 数据 如 何 产生 的 解释 ， 在 构造 网 络 时 有 


(eC) 
因果 关系 更 可 取 (Pear 2000) ， 但 是 这 种 因果 关系 并 非 总 是 能 够 得 到 的 。 
我 们 在 本 书 中 讨论 的 大 部 分 方法 都 可 以 表示 成 贝 叶 斯 网 络 。 例 
如 ， 对 于 我 们 在 3. 2 节 中 讨论 的 分 类 ， 对 应 的 贝 叶 斯 网 络 如 图 3-6 所 
示 。(3.2) 式 给 出 的 贝 叶 斯 规则 可 以 用 来 计算 p(C |x) ， 即 诊断 。 图 3-6 用 于 分 类 的 
如 果 输入 是 相互 独立 的 ， 如 图 3-7 所 示 ， 该 网 络 叫做 朴素 贝 叶 斯 SL 


分 类 器 (naive Bayes’ classifier) ， 因 为 它 忽略 了 输入 之 间 的 可 能 的 依赖 性 ( 即 相关 性 ) ， 将 一 个 
多 变量 问题 归 约 为 一 组 单 变量 问题 : 


P 
p(x|C,) = Jelc) 





图 3-7 朴素 贝 叶 斯 分 类 器 是 一 个 假设 输入 变量 相互 独立 的 用 于 分 类 的 贝 叶 斯 网 络 
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在 一 个 问题 中 ， 可 能 存在 隐藏 变量 (hidden variable) ， 它 们 的 值 不 能 通过 证 据 知 道 。 使 
用 隐藏 变量 的 优点 是 可 以 更 容易 地 定义 依赖 结构 。 例 如 ， 在 购物 篮 分 析 ， 当 我 们 想 找 出 所 销 
售 的 商品 之 间 的 依赖 性 时 ， 比 如 说 我 们 知道 “机 儿 食品 ”、“ 尿 布 ”和 “牛奶 ”之 间 的 依赖 
性 ， 因 为 顾客 购买 其 中 一 种 多 半 可 能 购买 另外 两 种 。 我 们 不 是 将 ( 非 因果 的 ) 弧 放 在 这 三 者 
之 间 ， 而 可 能 是 指定 一 个 隐藏 节点 “家 庭 婴 儿 ” 作 为 这 三 种 商品 消费 的 隐藏 原因 。 当 存在 
隐藏 节点 时 ， 它 们 的 值 用 观测 节点 的 给 定 值 估计 并 填写 。 

用 来 学 习 贝 叶 斯 网 络 参数 的 学 习 算 法 与 我 们 将 在 后 面 章 节 中 讨论 的 方法 并 无 差别 
(Buntine 1996) 。 它 们 基本 上 是 估计 条 件 概率 。 学 习 结 构 要 困难 得 多 。 尽 管 已 经 为 此 提出 了 一 
些 算法 ， 但 是 基本 上 都 是 人 类 专家 来 定义 变量 之 间 的 因果 关系 ， 并 创建 小 变量 组 的 层次 结构 。 


3.8 影响 图 


正如 我 们 前 面 将 概率 推广 到 具有 风险 的 动作 一 样 ， 影 响 图 Cinfluence diagram) 是 一 种 图 
形 模型 ， 是 包括 决策 和 效用 的 贝 叶 斯 网 络 的 推广 。 一 个 影响 图 包含 机 会 节点 (chance node) , 
表示 我 们 在 贝 叶 斯 网 络 中 使 用 的 随机 变量 。 影 响 图 还 包含 决策 节点 和 效用 节点 。 决 策 节 点 
(decision node) 表示 动作 的 选择 。 效 用 节点 (utility node) 是 效用 被 计算 的 地 方 。 决 策 可 以 根 
据 机 会 节点 做 出 ， 还 可 能 影响 其 他 机 会 节点 和 效用 节点 。 

影响 图 上 的 推断 是 对 贝 叶 斯 网 络 上 的 推断 的 扩展 。 给 定 一 些 机 会 节点 上 的 证 据 ， 证 据 被 传 
播 ， 对 每 一 个 可 能 的 决策 计算 效用 ， 并 选择 具有 最 大 效用 的 决策 。 对 一 个 给 定 输入 分 类 的 影响 
图 在 图 3-8 中 。 给 定 输入 ， 决 策 节点 决定 类 ， 对 于 每 个 选择 ， 我 们 得 到 一 定 的 效用 (风险 ) 。 


选择 类 





图 3-8 对 应 分 类 的 影响 图 。 依 赖 于 输入 *， 选 择 一 个 导致 一 定 效用 (风险 ) 的 类 


3.9 关联 规则 


关联 规则 (association rule) 是 形 如 X-*Y 的 蕴涵 式 。 关 联 规 则 的 一 个 例子 是 购物 篮 分 析 , 
通过 购物 篮 分 析 ， 我 们 希望 发 现 项 X 和 了 工 之 间 的 依赖 性 。 一 个 典型 的 应 用 是 零售 ， 其 中 式 
和 了 是 销售 的 商品 (1.2.1 节 )。 

在 学 习 关联 规则 时 ， 有 两 个 度量 需要 计算 : 

m “关联 规则 X—Y 的 置信 度 (confidence) : 


Confidence(X — Y) = P(Y|X) = EE = ne Rene (3.20) 





关联 规则 XY 的 支持 度 (support) : 
_ # 购 买 卫 和 了 的 顾客 | 


Support(X,Y) = P(X,Y) = Coo £*EDR 0 (3.21) 
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置信 度 是 我 们 通常 计算 的 条 件 概率 P(Y|X) 。 为 了 能 够 说 该 规则 具有 足够 的 置信 度 ， 它 
的 值 应 该 接近 于 1， 并 且 显 著 大 于 人 们 购买 了 的 总 体 概率 P(Y) 。 我 们 也 对 最 大 化 规则 的 支 
持 度 感 兴趣 ， 因 为 即使 有 一 个 强 置信 度 的 依赖 ， 如 果 这 样 的 顾客 数量 很 少 ， 该 规则 也 是 没有 
价值 的 。 支 持 度 展示 了 规则 的 统计 显著 性 ， 而 置信 度 展 示 了 规则 的 强度 。 

最 小 的 支持 度 和 置信 度 由 公司 设 定 ， 并 且 在 数据 库 中 搜索 所 有 具有 较 高 支持 度 和 置信 度 
的 规则 。 支 持 度 和 置信 度 的 公式 可 以 很 容易 推广 到 多 于 两 个 项 ， 使 得 丈 和 了 是 不 相交 的 项 
集 。 例 如 ，P(Y|X，Z) 是 三 项 集 ， 比 两 项 集 更 重要 。 由 于 销售 数据 库 一 般 非常 大 ， 所 以 我 
们 希望 通过 少数 几 遍 数据 库 扫描 找 出 依赖 性 。 有 一 个 有 效 的 算法 ， 称 作 Apriori 算法 ( Agrawal 
等 1996) ， 来 做 这 项 工作 。 


3. 10 注释 


依据 不 确定 数据 进行 决策 已 经 有 很 长 的 历史 ， 并 且 人 类 一 直 在 探索 各 种 陌生 领域 ， 寻 找 
证 据 来 排除 不 确定 性 : 例如 天 体 、 水 晶 球 和 咖啡 杯 。 使 用 概率 论 ， 从 有 意义 的 证 据 推理 仅 有 
几 百 年 的 历史 。 关 于 概率 和 统计 学 的 历史 ， 以 及 拉 普 拉 斯 、 伯 努 利 和 创建 该 理论 的 其 他 学 者 
的 一 些 早期 论文 见 Newman1988 。 

Russell 和 Norving(1995 ) 给 出 了 效用 理论 和 信息 值 的 很 好 讨论 ， 该 书 还 用 货币 术语 讨论 
了 效用 分 配 。Shafer 和 Pearl 1986 是 不 确定 下 推理 的 早期 论文 的 汇集 。Pearl 1988 年 的 书 是 一 
部 经 典 之 作 ， 而 他 最 近 的 书 (Pearl 2000 ) 更 详细 地 研究 了 因果 关系 的 概念 。Jensen 1996 年 的 
书 是 一 本 值得 一 读 的 贝 叶 斯 网 络 导论 。Lauritzen 1996 给 出 了 更 形式 化 的 处 理 。Huang 和 Dar- 
wiche( 1994 ) 是 一 篇 详细 介绍 结 树 的 建立 和 在 树 上 推理 的 好 文章 。 当 网 络 盛行 的 时 候 ， 精 确 
推理 变 得 不 可 行 ; 可 以 使 用 随机 抽样 (Andrieu 等 2003 ) 或 者 使 用 变通 的 方法 (Jordan 等 
1999) 。Buntine1996 包含 了 在 贝 叶 斯 网 络 中 学 习 的 文献 评论 ，Jordan1999 是 更 多 最 近 工 作 的 
汇编 。Cowell 等 1999 讨论 了 通过 专家 以 及 通过 从 数据 中 学 习 结构 的 方法 建立 网 络 结构 。 

人 工 智能 方面 与 不 确定 性 有 关 的 一 个 网 页 在 http://www. auai. org， 那 里 提供 了 精 选 的 引 
导 性 论文 和 到 公共 领域 程序 的 链接 。 贝 叶 斯 网 络 的 近期 工作 可 以 在 人 工 智 能 不 确定 性 (Un- 
certainty in Artificial Intelligence, UAI) 论文 集中 找到 。 








3.11 习题 
1. 在 两 个 类 的 问题 中 ， 似 然 比 (likelihood ratio) 是 
p(x|C,) 
p(x|C,) 
请 用 似 然 比 写 出 判别 函数 。 
2. 在 两 个 类 的 问题 中 ， 对 数 几 率 (log odd) 定 义 为 
i, Plo 
P(C, |x) 
请 用 对 数 几 率 写 出 判别 函数 。 


3. 在 两 类 、 两 动作 问题 中 ， 如 果 损 失 函 数 是 Au = Ma =0, Ay 710, Ay =1， 写 出 最 佳 决策 
规则 。 
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4. 某 人 做 公平 投 币 ,如 果 结 果 是 正面 ， 你 什么 都 得 不 到 ， 否 则 就 会 得 到 $5。 玩 这 样 的 游戏 
你 愿意 支付 多 少 钱 ? 如 果 赢 $ 500 而 不 是 $5 又 如 何 ? 

5. 在 图 3-4 中 , 计算 P(C|W)。 

6. 在 图 3-5 p, HH PCF |C). 

7. 给 定 图 3-5 的 结构 和 包含 下 表 所 示 观 测 的 样本 处， 如 何 学 习 概 率 ? 





FH ms 屋顶 
"y 是 是 
是 G 否 











8. 推广 购物 篮 分 析 的 置信 度 和 支持 度 公 式 ， 计算- 依赖 ， 即 P(Y | XX,，…，X,)。 
9. 在 购物 篮 分 析 中 ， 如 果 对 于 每 件 售 出 的 商品 我 们 还 有 一 个 数 ， 该 数 指出 顾客 喜爱 该 商品 


的 程度 ,例如 ， 在 0 到 10 这 个 范围 内 ， 你 怎么 能 利用 这 一 附加 信息 计算 把 哪 种 商品 推荐 
给 顾客 ? 
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B48 参数 方法 


前 面 ， 我 们 讨论 了 在 使 用 概率 对 不 确定 性 建 模 时 ， 如 何 做 出 最 优 决策 。 现 在 ， 考 虑 如 何 
从 给 定 的 训练 集 估计 这 些 概率 。 我 们 从 分 类 和 回归 的 参数 方法 开始 。 在 后 面 的 章节 中 ， 将 讨 
论 半 参 数 和 非 参 数 方法 ， 介 绍 用 于 权衡 模型 复杂 度 和 经 验 误差 的 模型 选择 方法 。 


4.1 引言 


统计 量 (statistic) 是 从 给 定 样本 中 计算 的 任何 值 。 在 统计 推断 中 ， 我们 使 用 样本 提供 的 
信息 进行 决策 。 第 一 种 方法 是 参数 方法 ， 这 里 假设 样本 取 自 服从 已 知 模型 的 某 个 分 布 ， 例如 
高 斯 分 布 。 参 数 方法 的 优点 是 ， 模 型 定义 在 少量 参数 (例如 均值 、 方 差 ) ， 即 分 布 的 有 效 统 
计量 上 。 一 旦 从 样本 中 估计 出 这 些 参数 ， 就 知道 了 整个 分 布 。 我 们 从 给 定 的 样本 估计 分 布 的 
参数 ， 把 这 些 估计 放 到 假设 的 模型 中 ,并 得 到 估计 的 分 布 ， 然 后 用 它 进行 决策 。 我 们 用 来 估 
计 分 布 参数 的 方法 是 最 大 似 然 估 计 。 我 们 还 将 讨论 贝 叶 斯 估计 ， 随 着 计算 能 力 的 提高 ， 贝 叶 
斯 估计 日 趋 流行 。 

我 们 从 密度 估计 (density estimation) 开 始 。 密 度 估计 是 估计 p(x) 的 一 般 情况 。 我 们 使 用 
密度 估计 进行 分 类 ， 其 中 估计 的 密度 是 能 够 计算 后 验 概率 P(C, | x) 并 做 决策 的 类 密度 
p(x|C,) 和 P(C,)。 然 后 ,我 们 讨论 回归 ， 其 中 估计 的 密度 是 p(y |x). AE, x 是 一 维 的 ， 
因此 密度 是 一 元 的 。 在 第 5 章 中 ， 我 们 将 推广 到 多 元 情况 。 


4.2 最 大 似 然 估计 


假定 我 们 有 一 个 独立 同 分 布 (iid) 样 本 X = [ar'l o RIE S 是 从 某 个 定义 在 参数 9 上 
的 已 知 概率 密度 族 p(x | 0) 中 抽取 的 实例 : 
x ~ p(x|8) 
我 们 希望 找 出 这 样 的 6， 使 得 六 尽 可 能 像 是 从 P(* | 9) 抽取 的 。 因 为 x' 是 独立 的 ， 给 定 
参数 9， 样本 X 的 似 然 (likelihood) 是 个 体 点 似 然 的 乘积 : 


UXx10) = p(x|@) = [Tos 1o (4.1) 

在 最 大 似 然 估计 (maximum likelihood estimation) 中 ， 我 们 感 兴趣 的 是 找到 这 样 的 9， 使 得 

XX 最 像 是 抽取 的 。 因 此 ， 我 们 寻找 最 大 化 样本 似 然 的 9， 该 似 然 记 作 1( 9 |X)。 我 们 可 以 最 大 

化 该 似 然 的 对 数 ， 而 不 改变 它 取 最 大 值 的 数值 。log() 把 乘积 转换 为 求 和 ， 并 且 当 假定 某 种 
密度 (例如 包含 指数 ) 时 进一步 简化 计算 量 。 对 数 似 然 (log likelihood) 定 义 为 

£(0|x) = log 1(@ |x) = È log pC! | 0) (4.2) 

现在 ， 让 我 们 来 看 我 们 感 兴趣 的 实际 应 用 中 出 现 的 一 些 分 布 。 如 果 我 们 有 两 类 问题 ， 
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我 们 就 用 伯 努 利 分 布 。 当 存在 >2 个 类 时 ， 分 布 拓 广 为 多 项 分 布 。 高 斯 ( 正 态 ) 密 度 是 一 
种 最 常 使 用 的 对 类 条 件 输入 建 模 的 密度 。 对 于 这 三 种 分 布 ， 我 们 讨论 它们 的 参数 的 最 大 
似 然 估 计 ( MLE) 。 


4.2.1 伯 努 利 密度 


在 伯 努 利 分 布 中 ， 有 两 个 结果 : 事件 要 么 发 生 ， 要 么 不 发 生 。 例 如 ， 实 例 是 类 的 正 例 ， 
或 者 不 是 。 事 件 发 生 ， 伯 努 利 随机 变量 以 概率 p 取 值 1， 事件 不 发 生 的 概率 为 1-p， 并 用 
X WO 表示 。 这 表示 为 

P(x) »p(1-p)', = x © {0,1} (4,3) 

P 是 唯一 参数 ， 并 且 给 定 独立 同 分 布 样本 X= llh, Hp ae (0, 11, RMR 

p 的 估计 记 。 对 数 似 然 是 


E 
£X) = log] Tp (1 - p) 7? 


a E logp + (x- È =) os -p) 


通过 求解 4L/dp =0 可 以 找 出 最 大 化 该 对 数 似 然 的 万 。 
P= ze (4.4) 
Pp 的 估计 是 事件 发 生 的 次 数 与 试验 次 数 的 比值 。 注 意 ， 如 果 《是 参数 为 p 的 伯 努 利 变 


Tt, WE E[X] =p, 并且 作为 期 望 ， 均 值 的 最 大 似 然 估 计 是 样本 的 平均 值 。 
42.2 多 项 密度 


以 伯 努 利 分 布 的 推广 为 例 ， 其 中 随机 事件 的 结果 不 是 两 种 状态 ， 而 是 天 种 互 斥 、 穷 举 
状态 之 一 (例如 类 ) ， 其 中 每 种 状态 出 现 的 概率 为 p,， 其 中 Xp = 1. Ux, nion xx 是 
指示 变量 ， 其 中 当 输 出 为 状态 时 x, 为 1， 和 否则 为 0。 


< 
P(x, ,x xx) = FI» (4.5) 


假定 我 们 做 次 这 样 的 独立 试验 ， 结 果 为 X= als, Or, 
LM fi 如 果 试验 + 选择 状态 i 
' lo 否则 








JEP Exil, p, 的 最 大 似 然 估计 是 

状态 i 的 概率 估计 是 结果 为 状态 i 的 试验 次 数 与 试验 总 次 数 的 比值 。 有 两 种 方法 可 以 获 
得 这 个 估计 : MR x, 是 0/1， 则 可 以 认为 它们 是 天 个 独立 的 伯 努 利 试 验 。 或 者 ， 我 们 可 以 写 
出 对 数 似 然 并 找 出 最 大 化 它 的 p GRE ARI Ep, =1)。 


(4.6) 
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42.9 高 斯 ( 正 态 ) 密度 


站 是 均值 为 方差 为 a” 的 高 斯 ( 正 态 ) 分 布 ， 记 作 和 (jy，o*)， 如 果 它 的 密度 函数 为 





p(x) = dee |= Sop) =e imm (4.7) 
给 定 样本 X = [xl Fea’ ~ 和 (jp，o?)， 高 斯 样本 的 对 数 似 然 为 
X(x-4) 
£(u.o |x) =- Log(2m) = N log o - RU 
最 大 似 然 估 计 为 
zin xx (4.8) 
2 Bx’ -my 
C ASAP oe 


我 们 根据 通常 的 约定 ， 用 希腊 字母 表示 总 体 参数 ， 用 罗马 字母 表示 它们 的 样本 估计 。 有 
时 ， 帽 ( 抑 扬 符 号 ) 也 用 来 表示 估计 ， 例 如 久 。 


4.9 ”评价 估计 : fS 


令 X 是 取 自 参数 9 指定 的 总 体 上 的 样本 ， 并 令 d=d(X) 是 9 的 一 个 估计 。 为 了 评估 该 估 
计 的 质量 ,我 们 可 以 度量 它 与 9 有 多 大 不 同 ， 即 (d(X) - 9)*。 但 是 因为 它 是 一 个 随机 变量 
( 它 依赖 于 样本 ) ， 我 们 需要 对 它 在 可 能 的 X 上 取 平均 值 ， 并 考虑 r(d，0) ， 它 是 估计 d 的 均 
方 误差 (mean square error) ， 定 义 为 
r(d,0) = E[(d(X) - 6)*] (4.9) 
估计 的 偏 倚 (bias) 是 
b,(d) = E[d(X)] - 6 (4.10) 
如 果 对 所 有 的 8 值 都 有 bu(d) 20, W d 是 9 的 无 偏 估计 ( unbiased estimator) 。 例 如 ， 如 
果 * 是 从 均值 为 的 密度 抽取 出 的 ， 则 样本 平均 值 m 是 均值 的 一 个 无 偏 估计 ， 因 为 
Ecm) = er] = Ly ete] = uu 
这 就 意味 着 虽然 在 一 个 特定 样本 上 ，m 却 可 能 与 4 RA, ERR AES ix PEDE 
本 Xt， 并 且 估计 许多 m, 2 mQG) ， 随 着 样本 的 增加 ， 它 们 的 平均 值 将 通 近 hw。m 也 是 一 个 一 


致 估计， 也 就 是 说 ， 当 N 一 om 时 ，Var(m) 一 0。 


， a 
Var(m) = Var (S = aX Varo’) NM E^ 


2 





N N 


随 着 样本 中 的 点 数 N 的 增 大 ，m 对 的 偏离 变 小 。 现在 ， 让 我 们 来 检查 o^ 的 最 大 似 然 
fi s: 
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p Eee aA" El)? -Nm 


N N 
Xm Mens N- Em] 
给 定 Var(X) = EL] =EEX]*， 我 们 得 到 E[X*] 2 Var(X) +E[X]*,， 并 且 
E[(x)] =o? +p, Elm] = &^/N +p? 


FH, RNA 
Nl +p) -No /N+p) _ (N= 
SLA N aT ( N 





De žo 
上 式 说 明 s Eo 的 有 偏 估计 。(NA(N -1) )s 是 一 个 无 偏 估计 。 然 而 ， 当 六 很 大 时 ， 差 别 
可 以 忽略 。 这 是 一 个 渐进 无 偏 估 计 (asymptotically unbiased estimator) 的 例子 ， 它 的 偏 倚 随 着 
N 趋向 无 穷 而 趋向 于 0。 

均 方 误差 可 以 重新 改写 如 下 (d 是 d(x) 的 缩写 ) : 

r(d,8) = E[ (d - 6)] 

E[ (d - E[d] + E[d] -6)3] 
E[(d - E[d])* + CE[4] - 6)? +2(E[d] - 6)(d - E[d])] 
E[ (d - E[d])*] + E[(E[d] - 0)*] +2E[(E[d] - 6) (d.- ELd])] 
E[ (d - E[d])*] + (E d] - 6)! +2(E[d] - 6) E[d - E(4)] 


= E((4 - E[d])*] + (EL 4] - 6? (4.11) 
m LL 


最 后 两 式 相等 是 因为 E[d] 是 常数 ， 因 此 E d] -8 也 是 一 个 常数 ， 并 且 因 为 E[d -E[ d]] = 
E[d] - E[d] =0。 在 (4.11) 式 中 ， 第 一 项 是 方差 (variance) ， 度 量 在 平均 情况 下 d, 在 期 望 值 
附近 的 变化 程度 (从 一 个 数据 集 到 另 一 个 数据 集 ); 而 第 二 项 是 偏 倚 (bias) ， 度 量 期 望 值 偏离 
正确 值 的 程度 (参见 图 4-1) 。 于 是 ， 我 们 把 误差 写成 方差 和 偏 倚 的 平方 之 和 : 

r(d,8) = Var(d) + (b,(d))* (4.12) 


偏 倚 


图 4-1 6 是 需要 估计 的 参数 。d 是 在 不 同样 本 上 的 多 个 估计 (用 “x” 表示 )。 偏 倚 是 4 的 
期 望 值 与 9 之 差 。 方 差 是 d, 在 期 望 值 周围 的 散布 程度 。 我 们 希望 它们 两 个 都 很 小 


4.4 贝 叶 斯 估计 


有 时 ， 在 看 到 样本 之 前 ， 我 们 (或 应 用 领域 专家 ) 可 能 会 有 一 些 关 于 参数 9 可 能 取 值 的 
范围 的 先 验 ( prior) 信息 。 这 些 信 息 是 非常 有 用 的 ， 也 应 当 利用 起 来 ， 尤 其 是 样本 较 小 时 。 
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这 些 先 验 信息 不 会 告诉 我 们 参数 的 确切 值 (否则 我 们 就 不 需要 该 样本 ) ， 并 且 我 们 通过 把 6 
看 作 是 一 个 随机 变量 并 为 它 定义 先 验 密度 p(9) 来 对 这 种 不 确定 性 建 模 。 例 如 ， 假 设 我 们 知 
道 9 接近 正 态 分 布 ， 并且 9 介 于 5 到 9 之 间 , 7 左右 对 称 的 置信 度 为 90% 。 于 是 ， 可 以 把 
PC6) 写 成 均值 为 7 的 正 态 分 布 ， 并 且 因为 

p{ a 1.64<9—# <1. 64} = 0.9 


Piu - 1.640 <0<p + 1.640} = 0.9 
RTM 1.640 =2, 并且 使 用 o =2/1.64。 这 样 ， 我们 就 可 以 假定 p(0) ~ (7，(27 
1.64)*)。 

先 验 密度 (prior density)p(9) 告 诉 我 们 在 看 到 样本 之 前 9 的 可 能 取 值 。 我 们 把 它 和 样本 
数据 告诉 我 们 的 ( 即 似 然 密度 p(X | 9) ) 结合 起 来 ， 利 用 贝 叶 斯 规则 ， 得 到 9 的 后 验 密度 
(posterior density) ， 它 告诉 我 们 看 到 样本 之 后 9 的 可 能 取 值 : 

pox) = eI0)p(0) - px|0)p(0) (4.13) 
P(X) Joc | opoo 





为 了 估计 * 上 的 密度 ， 我 们 有 
px)» Jp(x,01x)ao 


= [o(x|0, x)p(0 |x)do 
= Jp(x|0)p(0 |x) do 


p(x|0, X) =P(x |9)， 因 为 只 要 我 们 知道 有 效 统计 量 9， 我 们 就 知道 关于 分 布 的 一 切 。 
这 样 ， 我 们 在 使 用 所 有 9 的 值 的 预测 上 取 平 均值 ， 用 它们 的 概率 加 权 。 如 果 我 们 像 在 回归 中 
一 样 ， 以 y=g(x19) 的 形式 做 预测 ， 则 有 
y= fecal Opo lx)ao 


除非 后 验 具 有 很 好 的 形式 ， 否 则 求 这 个 积分 可 能 非常 困难 。 当 求 整个 积分 不 可 行 时 ， 我 
们 把 它 缩减 到 单个 点 。 如 果 我 们 可 以 假定 P(8 |X) 在 它 的 众 数 周 围 有 一 个 罕 的 峰值 ; 则 使 用 
最 大 后 验 ( maximum a posteriori, MAP) 估计 将 使 得 计算 比较 容易 : 
Ouar = arg maxp( 6 |X) (4.14) 
这 样 ， 用 单个 点 取代 整个 密度 ， 回 避 积 分 并 且 使 用 
P(x |X) = pa | Our) 
Juur = g(x | Our) 
如 果 我 们 没有 更 重要 的 理由 偏爱 9 的 某 些 值 ， 则 先 验 密度 是 扁平 的 ， 后 验 将 与 似 然 
P(X 19) 有 同样 的 形式 ， 并 且 MAP 估计 将 等 价 于 最 大 似 然 估计 (参见 4.2 节 ) ， 其 中 我 们 有 
Ou = arg max p(X | 8) (4.15) 
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另外 一 个 可 能 的 方法 是 贝 叶 斯 估计 (Bayes" estimator) ， 它 被 定义 为 后 验 密度 的 期 望 什 
Bron = ELOIX] = fepCo lando (4.16) 
取 期 望 值 的 原因 是 随机 变量 的 最 佳 估计 是 它 的 均值 。 假 设 9 是 变量 ， 我 们 想 要 用 ELO] =e 
预测 。 可 以 证 明 如 果 常 数 。 是 9 的 估计 ， 则 
E[((6-c)] = E[(6-u +p -e)!] 
= E[CO - 1] + (a - e 
如 果 。 取 J， 它 的 值 最 小 。 在 正 态 密 度 情况 下 ， 众 数 是 期 望 值 。 这 样 ， 如 果 po DO REA 
的 ， 则 raya = Ouar o 
作为 一 个 例子 ， 我 们 假设 x ~ 和 (9， 03) FH O~N(u, 0), Hw, o Fo; BH: 


pee 
(Qn) gr^ 2oi 


(4.17) 


ple) = 





p(0) = Fal E] 
可 以 证 明 p(9 |X) 是 正 态 的 ， 满 足 

Nios l/o^ 
Not * Vo?" * Not + Mo)" 

因此 ， 贝 叶 斯 估计 是 先 验 均值 上 和 样本 均值 m 的 加 权 平 均值 ， 权 重 与 它们 的 方差 成 反 
比 。 利 用 样本 提供 的 更 多 的 信息 ， 随 着 样本 规模 N 的 增加 ， 贝 叶 斯 估计 逼近 样本 的 平均 值 。 
4o 较 小 时 ， 即 当 我 们 关于 0 正确 值 具有 较 少 的 先 验 不 确定 性 时 ， 或 者 当 N 较 小 时 ， 我 们 
的 先 验 猜测 上 具有 较 好 的 效果 。 

TEAR, MAP 和 贝 叶 斯 估计 都 把 整个 后 验 密度 归 约 到 单个 点 并 且 丢失 信息 ， 除 非 后 验 是 
单 模 的 并 且 在 这 些 点 周围 有 一 个 窄 峰 。 随 着 计算 费用 降低 ， 一 个 可 能 性 是 使 用 蒙特 卡 洛 方 
法 ， 它 可 以 从 后 验 密度 产生 样本 ( Andrieu 等 2003)。 还 有 一 些 近 似 方法 可 以 用 来 计算 整个 
积分 。 


4.5 参数 分 类 
我 们 在 第 3 章 看 到 ， 使 用 贝 叶 斯 规则 ， 我 们 可 以 把 类 C, 的 后 验 概率 写 为 


PCG, |x) = PELGDPCG) .p(s|C)P(C) 


E[o |x] = (4.18) 





(4.19) 


P(x) Bap(z C) PCGH 
并 使 用 判别 式 函数 
g(x) = p(x| C) PCC,) 
或 者 等 价 地 
gi(x) = log p(x| C,) + log P(C,) (4.20) 


如 果 我 们 可 以 假设 p(x | C,) 是 高 斯 的 ， 则 
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(x - 4)? 
p(x|C,) = exp[- ED ] (4.21) 
(4. 20) 式 变 成 
ge) = - blog 2m - logo, - 789 + tog p(c)) (4.22) 
2 207 


让 我 们 看 一 个 例子 : 假设 一 个 汽车 公司 销售 K 种 不 同 的 汽车 ， 为 了 简单 起 见 ， 我 们 假 
定 唯一 影响 顾客 购买 的 因素 是 他 们 的 年 收入 ， 用 x 表示 。 于 是 ，P( C,) 是 购买 类 型 i 汽车 的 
顾客 所 占 的 比例 。 如 果 顾 客 的 年 收入 分 布 可 以 用 一 个 高 斯 分 布 近 似 ， 则 购买 类 型 i 汽车 的 顾 
客 其 收入 为 * 的 概率 p(x | C) 服 从 分 布 和 N(p;，o?)， 其 中 jy 是 这 类 顾客 年 收入 的 均值 ，o? 
是 他 们 的 年 收入 的 方差 。 

当 我 们 不 知道 P(C,) 和 p(x | C,) 时 ， 我 们 从 样本 估计 它们 并 把 它们 的 估计 插入 判别 式 ， 
得 到 判别 函数 的 估计 。 我 们 有 样本 





Xx [air ts (4.23) 
其 中 x*eR 是 一 维 的 ,re 10，11“ 使 得 
ym f Prec, (4.24) 
0 如 果 x'e Ck#i 
对 于 每 一 个 类 ， 均值 和 方差 的 估计 是 (依赖 于 4.8 R) 
Xa 
mS (4.25) 
2 _ XG mu 
DES (4.26) 
而 先 验 估计 是 (依赖 于 4.6 式 ) 
PCC) = E. (4.27) 
把 这 些 估 计 代 和 (4. 22) 式 ， 得 到 
2 
g(x) = - Plog 27 - log s, "6 m opty (4.28) 
28 


第 一 项 是 常数 ， 可 以 去 掉 ， 因 为 它 在 所 有 的 g(x) 中 都 是 一 样 的 。 如 果 这些 先 验 相等 ， 
则 最 后 一 项 也 可 以 去 掉 。 如 果 我 们 进一步 假设 方差 都 相等 ， 则 上 式 可 以 写 为 
&(x) 2-(x-m)! (4.29) 
因此 我 们 把 x 指派 到 具有 最 近 均 值 的 类 : 
REC Ix - m] = min| x - m, | 
对 于 两 个 相 邻 的 类 ， 两 个 均值 之 间 的 中 点 是 决策 阔 值 (参见 图 4-2) 。 
B1(x) = ga(x) 
(x -m,)? = (x - m)? 
m, +m, 
2 


x= 
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图 4-2 输入 是 一 维 的 ， 似 然 函 数 和 两 个 类 具有 相等 先 验 的 后 验 。 
方差 相等 并 且 后 验 相 交 于 一 点 ， 该 点 是 决策 阔 值 


当 方 差 不 相同 时 有 两 个 阔 值 (参见 图 4-3) ， 它 们 都 容易 计算 (参见 习题 4) 。 如 果 先 验 概 
率 不 同 ， 则 具有 向 不 太 可 能 的 类 的 均值 移动 决策 阔 值 的 效果 。 


04, 


03 上 - 


palo 
n 


po. 








El —— 
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图 4-3 输入 是 一 维 的 ， 似 然 函数 和 两 个 类 具有 相等 先 验 的 后 验 。 
方差 不 相等 并 且 后 验 在 两 个 点 上 相交 
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这 里 ， 我 们 对 参数 使 用 最 大 似 然 估 计 。 但 是 ， 如 果 有 一 些 关 于 它们 的 先 验 信息 (如 均 
18), ， 则 我 们 可 以 利用 上 EWER, EA pC | C,) 的 贝 叶 斯 估计 。 

这 里 必须 注意 : 当 x 连续 时 ， 我 们 不 要 急于 对 p(x | C,) 使 用 高 斯 密度 。 如 果 密 度 函 数 不 
是 高 斯 的 ， 则 分 类 算法 ( 即 阔 值 点 ) 将 会 出 错 。 在 统计 学 文献 中 ， 存 在 检查 正 态 性 的 检验 ， 
并 且 这 样 的 检验 应 该 在 假定 正 态 分 布 之 前 使 用 。 在 一 维 数据 的 情况 下 ， 最 简单 的 检验 是 绘制 
直方 图 并 观察 密度 是 否 是 钟 形 的 ， 即 是 否 是 单 峰 并 且 围绕 中 心 对 称 。 

这 是 基于 似 然 (likelihood- based approach) 的 分 类 方法 ， 其 中 我 们 使 用 数据 估计 密度 ， 使 
用 贝 叶 斯 规则 计算 后 验 密度 ， 然 后 得 到 判别 式 。 在 稍 后 的 章节 中 ， 我 们 讨论 基于 判别 式 的 方 7" 
法 ， 那 里 我 们 将 绕 过 密度 估计 而 直接 估计 判别 式 。 i 
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4.6 回归 


在 回归 中 ， 我 们 喜欢 将 数值 输出 写成 输入 的 函数 。 数 值 输出 称 为 因 变 量 (dependent variable) , 
函数 的 输入 称 为 自 变量 (independent variable) 。 我 们 假定 数值 输出 是 输入 的 确定 性 函数 与 随 
机 噪声 的 和 ; 

r = f(x) +e 
HPA EAR ARIK, RATHER X006 3 9 的 集合 上 的 估计 g(x | 9) 来 近似 它 。 如 果 我 们 
假设 s 服从 均值 为 0， 方差 为 o* 的 高 斯 分 布 ， 即 a ~ 和 (0，o*)， 并 且 用 我 们 的 估计 g(*) 取 
代 未 知 函数 /(*) ， 则 我 们 有 (参见 图 4-4) 
P(r|x) ~ N(g(x10),0°) (4.30) 







E[Rlx}owxtwy 


E[RIx*] 


pet 


图 4-4 回归 假定 0 AR B, 3x E E R HERY 
我 们 再 一 次 使 用 最 大 似 然 来 学 习 参 数 9。 训 练 集中 的 (x',r') 对偶 取 自 未 知 的 联合 概率 
EE pl, r), TUGHE 
p(x,r) = p(r|x)p(x) 
P(r|x) 是 在 给 定 输入 下 输出 的 概率 ， 而 p(x) 是 输入 的 密度 。 给 定 iid 样本 X = ia, ria, 
对 数 似 然 是 
x x 
£(8|X) = log [ToC = log] [p C |x) + lego C^) 
fs Tut ni 
我 们 可 以 忽略 第 二 项 ， 因 为 它 不 依赖 于 我 们 的 估计 。 于 是 ,我 们 有 








74 








48 第 4 章 











£C 1x) = os] re dl Dim] 
"qoc. m “exp [- 5 yt -aG 101] (4.31) 


--Nlog( /2ma) - LS [r -a( 10)]° 
第 一 项 独立 于 参数 0, TUER, AF10 也 可 以 去 掉 。 最 大 化 上 式 等 价 于 最 小 化 
E(61X) = ap -g 10) (4.32) 


它 是 我 们 最 经 常 使 用 误差 函数 ， 而 最 小 化 它 的 9 MY HR — Re it (least squares estimate) 。 
这 是 统计 学 经 常 做 的 一 个 变换 : 当 似 然 1! 包含 指数 时 ， 取 代 最 小 化 !， 我 们 定义 一 个 误差 函 
数 已 = -log !， 并 最 小 化 它 。 
在 线性 回归 (linear regression) 中 ， 我 们 有 线性 模型 
g(x |w,,w,) = w,x' + wy 


取 误差 平方 和 的 导数 (4. 32 式 ) ， 我 们 得 到 两 个 未 知 数 的 两 个 方程 
De = Nw, +0, D2 


Dre = we Ds + Yo 
CNTRE AR HER PETER Aw =y， 其 中 


N 3s w EC 
UE D» RE e [L] tr BE 


并 且 可 以 解 得 w=A-y。 
在 多 项 式 回归 ( polynomial regression) 的 一 般 情况 下 ， 该 模型 是 上 次 多 项 式 
gx |, st02 wy ws) = w(x")! m + w(x")? ena! + wo 
并 且 取 它 的 导数 ， 我 们 可 以 得 到 上 + 1 个 未 知 数 的 上 + 1 个 方程 ， 可 以 写 做 向 量 和 矩阵 的 形式 
Aw =y， 其 中 我 们 有 
N xx (0 c xXQG? 
zx S (yn eim e ag a a 


BM) SG) z(e)" SS 
wo xC 
v, Er 


w-|w|^ y=|Er(x)’ 


w Xs 
jefe A - D'D fü y -D'r, 其 中 
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i! xt Gy eel ct ê 


GO s (TM quy 2 


1o at quy oss (any E 
然后 ， 我 们 可 以 求解 参数 ， 得 到 
w = (D'D)"Dp'r (4.33) 

假设 高 斯 分 布 误差 ， 则 最 大 化 似 然 对 应 于 最 小 化 误差 的 平方 和 。 另 外 一 个 度量 是 相对 平 
方 误差 (relative square error, RSE) 

Bla: Er = s(x | 0) 1? 
XE(r-rD 

如 果 Ewse 接 近 于 1， 则 我 们 的 预测 与 用 平均 值 的 预测 一 样 好 ; 当 它 接近 于 0， 我 们 得 到 
更 好 的 拟 合 。 

记 住 ,为 了 最 好 地 泛 化 ， 我 们 应 该 调整 学 习 模型 的 复杂 度 ， 以 适应 数据 的 复杂 度 。 在 多 
项 式 回归 中 ， 复杂 度 参数 是 拟 合 多 项 式 的 阶 ， 因 此 需要 找到 一 种 选择 最 佳 阶 数 的 方法 ， 能 够 
最 小 化 泛 化 误差 。 也 就 是 说 ， 找 到 一 种 方法 ， 调 整 模型 的 复杂 度 使 其 最 佳 拟 合 数据 所 固有 的 
函数 复杂 度 。 


4.7 调整 模型 的 复杂 度 : 偏 倚 / 方 差 两 难 选择 


(4.34) 


我 们 假设 样本 X= 1x',r'| 取 自 未 知 的 联合 概率 密度 P(x*，r) 。 使 用 这 个 样本 ， 我 们 构建 
估计 g(*)。x 上 的 期 望 平方 误差 (联合 密度 上 ) 可 以 表示 为 (用 4.17 式 ) 

El (r - g(x))? |x] = EL(r- Er | x1)? 1] + (E[r|x] - g(x))’ (4.35) 
wo 误差 的 平方 

右边 的 第 一 项 是 给 定 x 时 + 的 方差 ; 它 不 依赖 于 5(') 或 X。 它 是 添加 噪声 的 方差 s È 
是 误差 的 一 部 分 ， 无 论 我 们 使 用 什么 估计 方法 ， 都 不 可 能 消除 它 。 第 二 项 量化 x 偏离 回 
归 函 数 EL | x] 的 程度 。 它 确实 依赖 于 估计 方法 和 训练 集 。 对 一 个 样本 来 说 ，g(x) 也 许 是 一 
个 非常 好 的 拟 合 ; 而 对 其 他 样本 ， 它 可 能 是 很 差 的 拟 合 。 为 了 评价 一 个 估计 g(.) 的 好 坏 程 
BE, 我们 对 可 能 的 数据 集 进行 平均 。 

期 望 值 (样本 X 上 的 平均 ， 所 有 的 样本 大 小 均 为 N 并 从 相同 联合 密度 p(x，r) 抽 取 ) 是 
(使 用 4. 11 R) 

E[(E[r|x] - g(x))? |x] = (Elr |x] - E,[e(*)])? +E[(e(x) - E[[g(x))] (4.36) 
‘ait 方差 

正如 我 们 前 面 所 讨论 的 ， 偏 倚 度 量 不 考虑 样本 变化 的 影响 时 g(x) 的 错误 程度 ; 方差 度 
量 当 样本 变化 时 g(x) 在 期 望 值 E[g(x) ] 附 近 波动 的 程度 。 

让 我 们 看 一 个 例子 : 为 了 估计 偏 倚 和 方差 ， 我 们 由 某 个 带 噪 声 的 已 知 的 成.) 产 生 一 组 数 
HRX = |x;，r| ，i=1，…， M， 利 用 每 个 数据 集 形成 一 个 估计 &;(-) ， 并 计算 偏 倚 和 方差 。 
注意 ， 在 现实 生活 中 ， 我 们 不 能 够 这 么 做 ， 因 为 我 们 不 知道 (*)， 也 不 知道 所 添加 噪声 的 参 
数 。 于 是 ，E[ g(x) 1H g,(*) 上 的 平均 来 估计 : 
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i 
B(x) = Me) 
i As 
Bias (g) = HE Ur) - JG 


Variance(g) = Ag X, X, Las) -EGT 
让 我 们 看 几 个 不 同 复杂 度 的 模型 : 最 简单 的 是 常数 拟 合 
g(x) = 2 
它 没有 方差 ， 因 为 我 们 没有 使 用 数据 ， 并 且 所 有 的 g,(x) 都 是 相同 的 。 但 是 偏 倚 很 高 ， 除 非 
对 于 所 有 的 x, f(x) 值 都 接近 于 2。 如 果 我 们 取样 本 中 的 平均 值 


g(x) = S/N 


而 不 是 常数 2， 则 就 减少 偏 倚 ， 因 为 我 们 预料 在 通常 情况 下 ， 平 均值 是 比 常数 更 好 的 估计 。 
但 是 ， 这 增加 了 方差 ， 因 为 不 同 的 样本 X 将 有 不 同 的 平均 值 。 通 常 ， 在 这 种 情况 下 ， 偏 倚 
的 减少 比方 差 的 增加 更 大 ， 而 误差 将 会 降低 。 
图 4-5 给 出 了 多 项 式 回归 的 情况 下 的 一 个 例子 。 随 着 多 项 式 阶 的 增加 ， 数 据 集 的 较 小 的 变化 
将 导致 拟 合 多 项 式 的 较 大 变化 ; 因此 方差 增加 。 但 是 ， 复 杂 的 模型 可 以 更 好 地 拟 合 潜在 的 函数 ; 
因此 偏 倚 减 少 (参见 图 4-6) 。 这 称 为 偏 倚 / 方 差 两 难 选择 (bias/variance dilemma) ， 并 且 不 仅 对 于 
多 项 式 回归 ， 而 且 对 于 任何 机 器 学 习 系统 都 存在 这 一 问题 ( Ceman Bienenstock 和 Doursat 1992) 。 
为 了 减少 偏 倚 ， 冒 着 具有 高 方差 的 危险 ， 模 型 应 当 是 柔性 的 。 如 果 方 差 保持 较 低 ， 则 我 们 可 能 不 
能 很 好 地 拟 合 数据 ， 并 且 具 有 较 高 的 偏 倚 。 最 佳 模型 是 最 好 地 权衡 偏 倚 和 方差 的 模型 。 
5 5 
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e) 三 次 o» 五 次 
图 4-5 a) BR f(x) =2sin(1. 52) 和 一 个 从 该 函数 抽样 含 噪声 (JY(0，1) ) 的 数据 集 。 抽 取 
EDA, BPA 20 个 实例 。b) 、e) 、d) 分 别 是 5 个 一 次 、 三 次 和 五 次 多 
项 式 拟 合 ， 即 g,(*) 。 对 每 种 情况 ， 虚 线 是 5 次 拟 合 的 平均 8(*) 
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图 4-6 与 图 4-5 同样 的 设置 ， 使 用 100 个 模型 而 不 是 5 个 ， 从 1 到 5 次 多 项 式 的 
偏 倚 ， 方 差 和 误差 。 一 次 多 项 式 具有 最 小 方差 ，5 次 多 项 式 具有 最 小 偏 倚 。 
随 着 阶 增加 ， 偏 倚 碱 小 但 是 方差 增加 。3 次 多 项 式 具有 最 小 误差 


如 果 有 偏 倚 ， 这 指明 我 们 的 模型 类 不 包含 解 ， 这 是 欠 拟 合 (underfiting) 。 如 果 有 方差， 
则 模型 类 过 于 一 般 ， 并 且 也 学 习 噪声 ， 这 是 过 拟 合 (overfiting)。 如 果 g(*) 是 与 /(*) 同 样 的 
假设 类 (例如 同 阶 多 项 式 ) ， 则 我 们 有 一 个 无 偏 估计 ， 并 且 估 计 的 偏 倚 随 着 模型 数量 的 增加 
而 减 小 。 这 表明 选择 正确 模型 的 误差 降低 效果 (在 第 2 章 ， 我 们 称 之 为 归纳 偏 倚 一 一 这 两 处 
“ 偏 倚 ” 的 使 用 是 不 同 的， 但 并 非 不 相关 )。 对 于 方差 ， 它 同样 依赖 于 训练 集 的 大 小 ; 由 于 
样本 导致 的 可 变性 随 着 样本 规模 的 增加 而 减少 。 总 结 一 下 ,为 了 取得 小 的 误差 值 ， 我 们 应 该 
有 合适 的 归纳 偏 倚 ( 在 统计 意义 上 取得 小 偏 倚 )， 并 且 有 一 个 足够 大 的 数据 集 ， 使 得 模型 的 
可 变性 能 够 受到 数据 的 约束 。 

注意 ,方差 大 时 偏 倚 小 ， 表 明 5(*) 是 一 个 好 的 估计 器 。 因 此 ， 为 了 取得 小 误差 。 我们 
可 以 采用 大 量 的 高 方差 模型 ， 并 且 用 它们 的 平均 值 作为 我 们 的 估计 。 我 们 将 在 第 15 章 讨论 
这 种 模型 组 合 方法 。 


4.8 模型 选择 过 程 


有 许多 过 程 可 以 用 来 调整 模型 的 复杂 度 。 

在 实践 中 ， 我 们 用 来 发 现 最 佳 复杂 度 的 方法 是 交叉 确认 (cross- validation) 。 我 们 不 能 计 
算 一 个 模型 的 偏 倚 和 方差 .但 是 我 们 能 够 计算 总 误差 。 给 定 一 个 数据 集 ， 我 们 把 它 分 成 两 部 
分 ， 分 别 作为 训练 集 和 确认 集 ， 在 训练 集 上 训练 不 同 复杂 度 的 候选 模型 ， 在 确认 集 上 测试 它 
们 的 误差 。 随 着 模型 复杂 度 增加 ， 训 练 误 差 持 续 降低 。 在 确认 集 的 误差 降低 达到 一 定 的 复杂 
度 水 平 之 后 ， 停 止 降低 或 不 再 明显 的 降低 ， 如 果 有 明显 噪声 的 话 甚至 还 会 增加 3x "39 
点 ”对 应 于 最 佳 复杂 度 水 平 (参见 图 4-7) 。 
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b) 误差 与 多 项 式 的 阶 


图 4-7 与 图 4-5 同样 的 设置 ， 产 生 训练 集 和 确认 集 (每 个 包含 50 个 实例 ) a) 训练 数据 和 
13/8 阶 拟 合 多 项 式 。b) 训练 和 确认 误差 作为 多 项 式 阶 的 函数 。“ 拐 点 ”在 3 


另外 一 个 常用 的 方法 是 正则 化 (regularization) (Breiman 1998a) 。 在 这 种 方法 中 ， 我 们 用 

一 个 增 广 误差 函数 ， 记 作 
El = 数据 上 的 误差 +A- 模型 复杂 度 (4.37) 

它 的 第 二 项 用 一 个 大 的 方差 惩罚 复杂 模型 ， 其 中 A 给 出 了 罚 的 权重 。 当 我 们 最 小 化 增 
广 误差 函数 而 不 是 数据 上 的 误差 时 ， 我 们 惩罚 了 复杂 模型 ， 因 此 降低 了 方差 。 如 果 A 取得 
太 大 ， 则 只 允许 很 简单 的 模型 ， 我 们 就 会 冒 着 引进 偏 倚 的 危险 。 使 用 交叉 确认 ，A 被 优化 。 

结构 风险 最 小 化 (structural risk minimization, SRM) ( Vapnik 1995) 使 用 一 个 模型 集 ， 按 
它们 复杂 度 排序 。 一 个 例子 是 阶 递增 的 多 项 式 。 复 杂 度 一 般 由 自由 参数 的 数量 度量 。VC 是 
另 一 种 模型 复杂 度 的 度量 。 在 (4. 37) 式 中 ,我 们 可 以 使 用 递减 的 A; 来 得 到 复杂 度 递增 的 模 
型 集合 。SRM 模型 选择 对 应 于 寻找 最 简单 并 且 在 数据 上 的 经 验 误差 最 小 的 模型 = 

最 小 描述 长 度 (minimum description length, MDL) ( Rissanen 1978) 使 用 一 种 信息 论 度量 。 
数据 集 的 Kolmogorov 复杂 度 定义 为 数据 最 短 描述 。 如 果 数 据 简 单 ， 它 就 有 短 的 复杂 度 ; 例 
如 ， 如 果 它 是 0 的 序列 ， 则 我 们 可 以 只 写 0 和 序列 的 长 度 。 如 果 数 据 完全 随机 的 ， 则 我 们 不 
能 够 有 比 数据 自身 更 短 的 数据 描述 。 如 果 一 个 模型 对 数据 是 合适 的 ， 则 它 有 一 个 好 的 数据 拟 
合 ， 我 们 可 以 发 送 /存储 数据 描述 而 不 是 数据 本 身 。 在 描述 数据 的 所 有 模型 中 ,我们 想 要 有 
一 个 最 简单 的 模型 ， 那 样 它 就 可 以 有 最 短 描述 。 这 样 ， 我 们 又 一 次 要 在 模型 的 简单 性 和 它 解 
释 数 据 能 力 之 间 权衡 。 

当 我 们 有 一 些 关于 近似 函数 的 合适 类 的 先 验 知识 时 ， 我 们 使 用 贝 叶 斯 模型 选择 ( Bayes- 
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ian model selection) 。 这 种 先 验 知 识 被 定义 为 模型 的 先 验 分 布 p( 模 型 )。 给 定数 据 并 假定 一 个 
模型 ， 我 们 可 以 用 贝 叶 斯 规则 计算 p( 模 型 | 数据 ) : 
PC AA | 模型 )p( 模 型 ) 
P( 模 型 | 数据 ) = IESU IUE (4.38) 

P( 模 型 | 数据 ) 是 给 定 我 们 关于 模型 的 主观 先 验 知识 ( 即 p( 模 型 ) ) 和 数据 提供 的 客观 支 
持 ( 即 p( 数 据 | 模型 ) ) ， 模 型 的 后 验 概率 。 我 们 可 以 选择 具有 最 高 后 验 概率 的 模型 ,或 者 用 
模型 的 后 验 概率 加 权 ， 在 所 有 模型 上 取 平均 。 当 选择 先 验 使 得 最 简单 的 模型 具有 最 高 概率 时 
(根据 奥 克 姆 剃刀 规则 )， 贝 叶 斯 方法 、 正 则 化 、SRM 和 MDL 是 等 价 的 。 

交叉 确认 与 其 他 模型 选择 的 方法 不 同 ， 因 为 它 不 对 模型 做 任何 先 验 假设 。 如 果 有 足够 大 
的 确认 数据 集 ， 它 就 是 最 好 的 方法 。 在 数据 样本 很 小 时 ， 其 他 模型 变 得 有 用 。 


4.9 注释 


最 大 似 然 和 贝 叶 斯 估计 基础 的 一 个 好 资源 是 Ross 1987。 许 多 模式 识别 教材 都 讨论 参数 
模型 分 类 (例如 ，MacLachlan 1992; Devroye, Gyürfi 和 Lugosi 1996; Webb 1999; Duda, Hart 
和 Stork 2001) 。 检 查 一 元 正 态 性 的 检验 可 以 在 Rencher 1995 中 找到 。 

Geman, Bienenstock 和 Doursat(1992) 讨论 了 几 个 学 习 模 型 的 偏 倚 和 方差 分 解 ， 这 些 我 
们 也 将 在 后 边 的 章节 讨论 。 偏 倚 / 方 差分 解 是 针对 回归 的 ; 对 于 分 类 ， 不 同 的 研究 者 提出 了 
偏 倚 和 方差 的 不 同 定义 ; 例如 Kong 和 Dietterich 1995 以 及 Breiman 1998b。 


4.10 习题 


L 写 出 产生 以 给 定 的 p 为 参数 的 伯 努 利 样 本 的 程序 ， 并 且 写 出 由 样本 计算 的 程序 。 

2. 写 出 多 项 样本 的 对 数 似 然 ， 并 证 明 (4.6) 式 。 

3. 写 出 产生 以 给 定 上 六 ，v 为 参数 的 正 态 样本 并 由 样本 计算 mA s 的 程序 。 对 假定 先 验 分 
布 ， 用 贝 叶 斯 估计 做 相同 的 工作 。 

4. 给 定 两 个 正 态 分 布 P(z | C,) -N Qu, of) Bl p(x |C) ~N Gus, o1) AR PCC) RI 
P(C,)， 解 析 地 计算 贝 叶 斯 判别 点 。 


5. 在 高 斯 密度 的 情况 下 ， 似 然 比 ELO ata? 
p(x|C,) 


6. 对 于 两 类 问题 ， 用 不 同 的 方差 为 两 个 类 产生 正 态 样本 ， 然 后 使 用 参数 分 类 法 估计 判别 点 。 
将 它 与 理论 值 进行 比较 。 

7. 假定 一 个 线性 模型 ， 然 后 加 入 0 均值 的 高 斯 噪声 来 产生 一 个 样本 。 把 样本 一 分 为 二 ,分 
别 作为 训练 集 和 确认 集 。 在 训练 集 的 这 一 半 上 使 用 线性 回归 。 在 确认 集 上 计算 误差 。 对 2 
次 和 3 次 多 项 式 进行 同样 的 处 理 。 

8. 当 训练 集 较 小 时 ， 方 差 对 误差 的 贡献 可 能 比 偏 倚 大 。 在 这 种 情况 下 ,我们 可 能 更 喜欢 简 
单 模型 ， 即 使 我 们 知道 对 于 我 们 的 任务 它 太 简单 。 你 能 给 出 一 个 例子 吗 ? 

9. 假设 给 定 样本 X = 1x, ri}, RETE XC g,(*) = 二 ， 即 我 们 对 任意 * 的 估计 是 数据 集 X 的 
第 一 个 实例 (未 排序 ) 的 + 值 。 与 g(x) =2 M g(x) = Er]N 相 比 ， 关 于 它 的 偏 倚 和 方差 
你 有 何 评论 ? 如 果 样本 是 有 序 的 并 使 g,(*) = min,r;， 情 况 又 如 何 ? 
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$58 多 元 方法 


在 第 4 章 ， 我 们 讨论 了 分 类 和 回归 的 参数 方法 。 现 在 ， 我 们 将 它们 推广 到 多 元 情况 ， 其 
中 我 们 有 多 个 输入 ， 并 且 输 出 ( 即 类 编码 或 连续 输出 ) 是 这 些 输入 的 函数 。 这 些 输入 可 能 是 
离散 的 或 数值 的 。 我 们 将 讨论 如 何 从 标记 的 多 元 样本 学 习 这 样 的 函数 ， 以 及 如 何 根据 已 有 数 
据 调整 学 习 方法 的 复杂 度 。 


5.1 多 元 数据 


在 许多 应 用 中 ， 许 多 测量 都 在 每 个 个 体 或 者 事件 上 进行 ， 并 产生 一 个 观测 向 量 。 样 本 可 
以 看 作 一 个 数据 给 阵 (data matrix) 


ted Hie 
il e ce tat o 
En e 3 


其 中 d 列 对 应 d 个 变量 ， 表 示 在 个 体 或 事件 上 的 测量 结果 。 它 们 也 称 为 输入 (input) 、 特 征 
(feature ) 或 属性 (attribute) o N 行 对 应 在 N 个 个 体 或 事件 上 的 独立 同 分 布 的 观测 (observation) 、 
样 例 (example) 或 实例 (instance) 。 

例如 ， 在 对 贷款 申请 做 决定 时 ， 观 测 向 量 是 与 客户 相关 的 一 些 信息 ， 包 括 客 户 的 年 龄 、 
婚姻 状况 、 年 收入 等 ， 并 且 我 们 有 N 个 这 样 的 老 用 户 。 这 些 测量 也 许 有 不 同 的 尺度 ， 例 如 ， 
年 龄 用 年 计算 ， 年 收入 用 货币 单位 计算 。 某 些 ( 如 年 龄 ) 可 能 是 数值 的 ， 某 些 ( 如 婚姻 状况 ) 
可 能 是 离散 的 。 

通常 ， 这 些 变量 是 相关 的 。 如 果 它 们 不 相关 ， 就 没有 必要 做 多 元 分 析 。 我 们 的 目标 也 许 
是 化 简 (simplification) ， 也 就 是 用 相对 少 的 参数 汇总 大 量 数据 。 我 们 的 目标 也 许 是 探测 性 的 
(exploratory) ， 并 且 我 们 可 能 对 产生 关于 数据 的 假设 感 兴 趣 。 在 有 些 应 用 中 ， 我 们 对 由 其 他 
变量 的 值 预测 一 个 变量 值 很 感 兴趣 。 如 果 被 预测 变量 是 离散 的 ， 这 就 是 多 元 分 类 问题 ; dn 
是 数值 的 ， 这 就 是 多 元 回归 问题 。 


5.2 参数 估计 
均值 向 量 (mean vector)p 的 每 个 元 素 都 是 X 一 个 列 的 均值 : 
E(x) =m = [pmp] (5.1) 
X, 的 方差 记 作 o1, WAER X, AX, 的 协 方差 定义 为 
oy = Cov(X,,X,) = EL(X, =m) (t, = my) = EUGX)] -pp (5.2) 


满足 wy = cf， 并 且 当 i=j 时 ，zu =0?。d 个 变量 就 有 d 个 方差 和 d(d - 1)72 个 协 方差 。 通 
常 表示 为 d xd 矩阵 ， 称 为 协 方差 矩阵 ( covariance matrix), JH I RR, HAG 门 个 元 素 
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fo, 
2 * 
9j On ou 
E 
y= on 2; ou 
oe A 
Ta On L^ 


对 角 线 上 的 元 素 是 方差 ， 非 对 角 线 上 的 元 素 是 协 方差 ， 并 且 和 矩阵 是 对 称 的 。 使 用 向 量 和 矩 
阵 记号 
X = Cov(X) = E[(X -p)(X -p)") = E[ XX") - pp” (5.3) 
如 果 两 个 向 量 是 线性 相关 的 ， 则 协 方差 是 正 还 是 负 取 决 于 线性 关系 的 斜率 是 正 还 是 负 。 
但 是 相关 性 的 大 小 很 难 解释 ， 因 为 它 取决 于 两 个 变量 的 测量 单位 。 变 量 羡 , AX, 的 相关 性 
( correlation) 是 一 个 规范 化 到 -1 到 +1 之 间 的 统计 量 ， 定 义 为 


c. 





Corr(X,,X,) = p; = Z (5.4) 


c0; 

如 果 两 个 变量 是 相互 独立 的 ， 那 么 其 协 方差 为 0， 因 而 相关 性 为 0。 然 而， 其 逆 不 真 : 
变量 也 许 是 相关 的 (在 非 线 性 方式 中 ) ， 然 而 它们 的 协 方差 可 能 为 0。 

给 定 多 元 样本 ， 可 以 计算 这 些 参数 的 估计 : 均值 的 最 大 似 然 估计 是 样本 均值 m。 它 的 第 

i 维 是 X 的 第 i 列 的 平均 值 : 

X. 











iz, (5.5) 
马 的 估计 是 样本 协 方差 (sample covariance) HPE S， 其 元 素 是 


à Xs — m,)? 


is CA WU (5.6) 


Ste (xt m,) (x) - m) 
ae NE CR 
它们 是 有 偏 估 计 ， 但 如 果 在 应 用 中 估计 的 变化 显著 依赖 于 我 们 用 N 还 是 用 NN - 1 来 除 ， 
那么 我 们 将 遇 到 严重 的 麻烦 。 
样本 相关 (sample correlation) 系数 


5, (5.7) 


xci (5.8) 
而 样本 的 相关 矩阵 R 包含 me 


5.3 缺失 值 估计 


观测 中 的 某 些 变 量 的 值 可 能 缺失 。 最 好 的 策略 是 把 这 些 观 测 一 同 丢 弃 ， 但 是 ， 一 般 我 们 
没有 足够 大 的 样本 来 让 我 们 这 样 做 ， 并 且 我 们 不 想 丢弃 数据 ， 因 为 非 缺 失 的 条 目 确实 包含 信 
息 。 我 们 试图 通过 估计 它们 来 填写 缺失 的 条 目 ， 这 被 称 作 估算 (imputation)。 

在 均值 估算 (mean imputation) 中 ， 对 于 数值 变量 ,我 们 用 现 有 数据 的 均值 (平均 值 ) 来 代 
蔡 样 本 中 缺失 的 变量 值 。 对 离散 变量 ， 我 们 用 最 可 能 出 现 的 值 ， 即 数据 中 出 现 最 多 的 值 ， 来 
填写 缺失 的 变量 值 。 
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在 回归 估算 (imputation by regression) 中 ， 我 们 试图 从 其 他 已 知 变量 的 值 来 预测 缺失 的 变 
量 值 。 根 据 缺 失 变量 的 类 型 ， 我 们 分 别 定义 一 个 回归 或 分 类 问题 ， 用 其 值 已 知 的 数据 点 训 
练 。 如 果 许 多 不 同 变 量 都 缺失 ， 则 我 们 取 均 值 作为 初始 估计 ， 并 且 反 复 执行 该 过 程 直到 被 巴 
测 的 值 稳定 。 如 果 这 些 变 量 不 是 高 度 相关 的 ， 则 回归 方法 与 均值 估算 等 价 。 

然而 ， 根 据 环境 ， 有 时 特定 属性 值 的 缺失 也 许 会 很 重要 。 例 如 ， 在 信用 卡 申请 中 ， 如 果 
申请 人 不 提供 他 或 她 的 电话 号 码 ， 那 也 许 是 一 条 关键 信息 。 在 这 样 的 情况 下 ， 我 们 用 一 个 单 
独 的 值 表示 它 ， 指 明 该 值 缺 失 并 照 此 使 用 。 


5.4 多 元 正 态 分 布 
在 多 元 情况 下 ， 其 中 x 是 4 维 、 正 态 分 布 的 ， 我 们 有 


1 TS -1 
p(x) -arar l-e -a)'3 ° -p) | (5.9) 
并 且 我 们 记 x ~ Nala, X), Mpa 是 均值 向 量 ， 是 协 方差 矩阵 (参见 图 5-1) 。 正 如 
RSS 


o 





^ * 


图 5-1 二 元 正 态 分 布 


是 * 到 人 的 以 标准 差 为 单位 、 对 不 同 的 方差 规范 化 的 平方 距离 一 样 ， 在 多 元 情况 下 ， 使 用 
Mahalanobis 距离 ( Mahalanobis distance) ; 
(x -p)"S "(x -p) (5.10) 

(x -&)'X (x-y) =° 是 以 pz 为 中 心 的 a 维 超 椭 球 ,并且 它 的 形状 和 方向 由 号 决定 。 
由 于 使 用 了 三 的 逆 ， 所 以 如 果 一 个 变量 比 其 他 变量 的 方差 大 ， 则 它 在 Mahalanobis 距离 中 的 权 
重 较 小 。 类 似 地 ， 两 个 高 度 相关 变量 的 贡献 没有 两 个 相关 性 较 低 变量 的 贡献 大 。 这 样 ， 使 用 协 
方差 矩阵 的 逆 具 有 将 所 有 变量 标准 化 (具有 单位 方差 ) 并 消除 相关 性 的 效果 。 

为 便于 显示 ， 让 我 们 考虑 二 元 情况 ， 其 中 d =2( 参 见 图 5-2) 。 当 变量 独立 时 ， 密 度 的 主 
轴 与 输入 轴 平 行 。 如 果 方 差 不 同 ， 则 密度 变 成 椭圆 。 密 度 根据 协 方差 (相关 性 ) 的 符号 而 旋 
转 。 均 值 向 量 为 ”= [yi ， 恬 ]， 协 方差 矩阵 通常 表示 为 
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图 5-2 二 元 正 态 分 布 的 等 概率 围 线 图 。 其 中 心 由 均值 给 定 ， 其 形状 和 方向 依赖 于 协 方差 矩阵 
二 元 联合 密度 可 以 表示 为 如 下 形式 (见习 题 1) 

1 1 2 2 
er: l-z Tay Pnn «2)] 
其 中 ，z, = (x -po.)/oi(i=1，2) 是 标准 化 变量 ， 称 为 =- 规范 化 (z-normalization) 。 记 住 ， 当 
lp1<1 时 ， 





p(x,,x,) = (5.11) 


zi + 2pzz, +i = 常数 
是 椭圆 方程 。 当 p Ot, MMM EMAIERR, 4p<Om, FHA RO. 

在 (5. 11) 式 的 扩展 Mahalanobis 距离 中 ， 每 个 变量 都 被 规范 化 ， 使 具有 单位 方差 ， 交 叉 
项 修正 了 两 个 变量 之 间 的 相关 性 。 

概率 密度 依赖 于 五 个 参数 : 两 个 均值 、 两 个 方差 和 相关 性 。 是 非 奇 异 的 ， 因 此 是 正定 
的 ， 只 要 方差 非 0 并且 |p |<=1。 如 果 p 是 +1 或 者 -1， 则 两 个 变量 是 线性 相关 的 ， 观 测 事 
实 上 是 一 维 的 ， 两 个 变量 中 的 一 个 可 以 去 掉 。 如 果 p =0， 则 两 个 变量 是 独立 的 ， 交 叉 项 消 
失 ， 我 们 得 到 两 个 一 元 密度 的 积 。 

在 多 元 情况 下 ， 小 的 [X | 值 表 明 样本 接近 py， 正如 单 变量 情况 ， 小 的 o^ 表示 样本 接近 人 。 
小 的 1 | 还 表示 两 个 变量 之 间 的 高 度 相关 性 。5 是 对 称 正定 矩阵 ; 这 是 Var(X)> 0 的 多 元 
Wük. FM, 是 奇异 的 ， 它 的 行列 式 的 值 为 0。 这 要 么 是 由 于 维 之 间 的 线性 依赖 性 ， 要么 
是 因为 有 一 维 具有 0 方差 。 在 这 种 情况 下 ， 应 该 将 维度 归 约 为 正定 矩阵 ; 第 6 章 将 讨论 这 个 
问题 的 处 理 方法 。 

如 果 ~JVs(n，Z)， 则 = 的 每 个 维 都 是 一 元 正 态 的。( 其 逆 不 真 : 每 一 个 万 都 可 以 是 一 
元 正 态 的 ,而 不 一 定 是 多 元 正 态 的 。) 实 际 上 ,变量 的 任意 <d 的 子 集 都 是 上 元 正 态 的 。 
一 个 特殊 的 情况 是 ，z 的 分 量 是 独立 的 ， 并 且 Lj BE Cov(CG, X) =0, 并 且 Var(X,) =0?， 
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Vi, 于 是 ， 协 方差 矩阵 是 对 角 的 ， 联 合 密度 是 各 一 元 密度 的 乘积 ， 
4 4 a 
ota) = feo BL e[- (SM) 
tet Qa)” ITo. a i 
现在 ， 我 们 考察 另 一 个 性 质 ， 它 将 在 以 后 的 章节 中 用 到 。 我 们 假设 x -Nlu, X), X 
Hwer’, wW 


2 





] (5.12) 


WI = wx, ux, + + gx, ~ IN (v' ww ) 
给 定 
E(w'x] = w'E[x] = wp (5.13) 
Var(w'x) = E[ (wx - w'u)*] = El (w'x - wn) (w'x - w"n)] 
= E[w'(x - n) (x - n)'w] = w'E((x -u)(x -n)']w 
= wiw (5.14) 
这 就 是 说 ，d 维 正 态 分 布 在 向 量 w 上 的 投影 是 一 元 正 态 分 布 。 在 一 般 情况 下 ， 如 果 W 
是 4xk 和 矩阵 ， 其 秩 上 一 4， 则 人 上 维 Wx 矩阵 是 上 元 正 态 分 布 : 


Wr ~ Ni (Wu, W's ) (5.15) 
也 就 是 说 ， 如 果 我 们 把 一 个 d HEIEZS AERE] k HEUS S], WBE k 维 正 态 分 布 。 
5.5 多 元 分 类 


当 xeR’ 时， 如 果 取 类 条 件 密度 Ptx |C,) 为 正 态 密度 Ns(p,，5,)， 则 我 们 有 
1 1 zi 
p(x|C,) = Gaye rL- 76 nox; (x -4)] (5.16) 


这 样 做 的 主要 原因 是 它 的 分 析 简单 性 (Duda、Hart 和 Stork 2001) 。 此 外 ， 正 态 分 布 密度 函数 
是 许多 自然 现象 的 模型 ， 因 为 大 多 数 类 的 样本 都 可 以 看 作 是 简单 原型 ,的 轻微 改变 版 本 ， 
并 且 协 方差 矩阵 E, 表示 每 个 变量 中 的 噪声 量 和 这 些 噪声 源 的 相关 性 。 尽 管 真 实数 据 可 能 并 
非常 常 是 严格 多 元 正 态 的 ， 但 是 这 是 一 个 有 用 的 近似 。 除 了 它 易于 进行 数学 处 理 外 ， 该 模型 
对 偏离 正 态 分 布 的 鲁 棒 性 在 许多 工作 中 都 展示 出 来 (例如 McLachlan 1992) 。 然 而 ， 一 个 明显 
的 要 求 是 一 个 类 的 样本 应 该 形成 单个 组 ; 如 果 有 多 个 组 ， 应 该 使 用 混合 模型 (第 7 章 ) 。 

假设 我 们 要 预测 顾客 可 能 感 兴趣 的 汽车 类 型 。 不 同 的 汽车 是 类 ， 而 x 是 顾客 的 可 观测 数 
据 ， 例 如 年 龄 和 收入 。A, 是 购买 i 类 汽车 的 顾客 年 龄 和 收入 的 均值 向 量 ， 而 ,是 它们 的 协 方差 算 
阵 : oa 和 oa 分 别 是 年 龄 和 收入 的 方差 ， 并 且 os 是 购买 i 类 汽车 的 顾客 年 龄 和 收入 的 协 方差 。 

当 我 们 定义 判别 式 函数 为 

g(x) = log p(x | C,) + log P(C,) 

并 假定 p(x | C.) ~Ni(p,，5,) 时 ,我 们 有 


g(x) =~ Hog 2m - Hog] X,| -4 -mE (æ -p,) +log P(C) (5.17) 


给 定 K>2 个 类 的 训练 样本 X= |x'，r'|} ， 其 中 如 果 x'e C,， 则 rt =1， 和 否则 为 0。 分 别 对 
每 个 类 求 最 大 似 然 ， 从 而 找到 均值 和 协 方差 的 估计 : 
Es 


P(C,) = = (5.18) 
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M 





LEÁAG = m,) (x! -m) 
e Ler 


然后 ， 将 这 些 代 和 人 判别 式 函数 ， 得 到 判别 式 的 估计 。 忽 略 第 一 个 常数 项 ， 我 们 有 


&(z) =- 半 gl1S,| -F(x m,)7S;' (x m) + log PCC) (5.19) 
把 它 展 开 ， 我 们 得 到 
a(x) =- Plog |S, | -F(x"S7'x ~ 2x7S;'m, + mIS7'm,) + log PCC,) 
它 定 义 了 一 个 二 次 判别 式 (quadratic discriminant) (参见 图 5-3) ， 也 可 以 写作 
g(x) = x'Wax + wx + wo (5.20) 
qol 
S 
= 005 
a 
0 


px 








图 5-3 类 具有 不 同 的 协 方差 矩阵 。 其 中 一 个 是 类 的 似 然 密 度 和 后 验 概率 (顶部 ) 。 
类 分 布 用 等 概率 围 线 表示 ， 并 且 绘 出 判别 式 (底部 ) 
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wo =- miS;'m, - Hog | S,| + log PCC,) 


对 于 均值 ， 需 要 估计 的 参数 数量 为 K .4 个 ， 而 对 于 协 方差 矩阵 为 K. d(d+1) 24%, 
X d 大 而 样本 小 时 ，S; 可 能 是 奇异 的 ， 并 且 其 逆 可 能 不 存在 。 或 者 ，| S, | 可 能 非 零 但 是 太 
小 ， 这 种 情况 会 不 稳定 ; S, 的 小 变化 会 引起 SC! 的 大 变化 。 为 了 使 小 样本 上 的 估计 可 靠 ， 
我 们 可 能 希望 通过 重新 设计 特性 提取 算法 并 选择 特征 子 集 ， 或 者 组 合 已 有 特征 来 降低 维度 
d, 我们 将 在 第 6 章 讨论 这 样 的 方法 。 

另外 一 个 可 能 的 做 法 是 汇集 数据 ， 并 且 对 所 有 的 类 估计 公共 协 方差 矩阵 : 


S = XP(C)8, (5.21) 
在 相同 协 方差 矩阵 的 情况 下 ，(5. 19) 式 化 简 为 
g(x) =~ P(e - m)" (x - m,) + log P(C,) (5.22) 


对 于 均值 ， 参 数 数量 为 K. d 个 ， 而 对 于 共享 协 方差 矩阵 为 4(d +1)/2 个 。 如 果 先 验 相 

等 ， 则 最 佳 决策 规则 是 把 输入 指派 到 与 输入 均值 的 Mahalanobis 距离 最 小 的 类 。 像 前 面 一 样 ， 

不 相等 的 先 验 将 边界 移 向 不 太 可 能 的 类 。 注 意 在 这 种 情况 下 ， 二 次 项 x'S-'x 被 取消 ， 因 为 它 

出 现在 所 有 的 判别 式 中 ， 并 且 决 策 边界 是 线性 的 ， 导 致 如 下 线性 判别 式 (linear discriminant) 
(图 5-4) 

B(x) = wix + wo (5.23) 


% 


图 5-4 协 方差 可 以 是 任意 的 ， 但 是 被 两 个 类 共享 





其 中 


EE jmis"'m, + log P(C,) 
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这 种 线性 分 类 器 的 决策 区 域 是 凸 的， 即 在 一 个 决策 区 域内 任意 选择 两 个 点 并 用 一 条 直线 
连接 ， 直 线 上 的 所 有 点 都 落 在 该 区 域内 。 

通过 假定 协 方差 矩阵 的 所 有 非 对 角 线 元 素 均 为 零 ， 从 而 假定 变量 都 是 独立 的 ， 问 题 可 以 
进一步 简化 。 这 是 朴素 贝 叶 斯 分 类 (naive Bayes’ classifier), HP p(x, | C) 是 一 元 高 斯 的 。S 
ME MM BEM AN, FARINA 

a (x) "rA (E) +108 Bc) (5.24) 

项 ((x - mi)《5)* 有 规范 化 作用 并 以 标准 差 为 单位 度量 距离 。 从 几何 学 角度 来 说 ， 类 是 
超 椭 圆 体 ， 并 且 因 为 协 方差 为 零 ， 它 还 是 轴 对 齐 的 ( 见 图 5-5)。 对 于 均值 ， 参 数 的 数量 为 K* d, 
而 对 于 方差 为 4。 这 样 ，S AYA RE HOC ) BENE HOC d) 。 


T 


图 5-5 所 有 的 类 都 具有 相等 的 对 角 协 方差 但 是 方差 不 相等 


如 果 我 们 假定 所 有 的 变量 是 等 同 的 ，Mahalanobis 距离 归结 为 欧 氏 距离 ( Euclidean distance) , 
问题 还 可 以 进一步 简化 。 在 几何 图 像 上 ， 分 布 是 球形 的 ， 并 以 均值 向 量 m, 为 中 心 ( 见 图 
5-6)。 于 是 ，|S| =% ER S^ =(1/s*)I。 参 数 是 K. d 个 均值 和 一 个 。 


lx- m, |°? 
2; 





a 
g(x) =- + log P(C,) aC +logP(C,) (5.25) 








图 5-6 ”所 有 类 具有 相等 的 、 在 两 个 维 上 均 具 有 相等 方差 的 对 角 协 方差 矩阵 
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如 果 先 验 相等 ， 则 我 们 有 gi(x) =- | x mil|*。 这 被 称 为 最 近 均 值 分 类 (nearest mean 
classifier) ， 因 为 它 把 输入 指派 到 最 近 均值 的 类 。 如 果 每 个 均值 都 被 看 作 是 类 的 理想 原型 或 
模板 ， 那么 这 就 是 模板 匹配 (template matching) 过程 。 它 可 以 被 扩展 为 


g(x) =- |x- m, |? =- (=m) (r= m,) 
=- (x'x-2m!x + mim) (5.26) 
第 一 项 *x 出 现在 所 有 的 g,(x) 中 ， 可 以 去 掉 ， 并 且 我 们 可 以 把 判别 式 函数 写成 
B(x) = wix + wo (5:27) 
其 中 w 2m, wo = - (12) | mi 上 *。 如 果 所 有 的 m 有 相似 的 范 数 ， 则 wo 也 可 以 忽略 ， 并 
且 我 们 可 以 使 用 
g(x) = mix (5.28) 


24 m, 的 范 数 可 比较 时 ， 也 可 以 使 用 点 积 代替 ( 负 的 ) 欧 氏 距离 作为 相似 性 度量 。 
我 们 实际 上 可 以 把 寻找 最 佳 判 别 函 数 的 任务 看 作 是 寻找 最 佳 距离 函数 。 这 可 以 被 看 作 
是 另外 一 种 分 类 方法 : 我 们 不 是 要 学 习 判 别 式 函数 g,(x) ， 而 是 要 学 习 一 个 合适 的 距离 函数 
Dn, x), MAHER x, x, x, HP x, x, 属于 相同 的 类 ， 而 x, x, 属于 两 个 不 同 
的 类 ， 我 们 希望 有 
D(x,,x,) < D(x, ,x;) 


5.6 调整 复杂 度 


在 表 5-1 中 ， 我 们 看 到 如 何 减少 协 方差 矩阵 的 参数 数目 ， 在 简单 模型 的 适用 性 和 通用 性 
之 间 折衷。 这 是 偏 倚 / 方 差 两 难 选择 的 又 一 个 例子 。 当 我 们 做 简化 协 方差 矩阵 的 假设 并 降低 
被 估计 的 参数 数目 时 ， 我 们 就 有 引进 偏 倚 的 风险 。 另 一 方面 ， 如 果 不 做 这 种 假设 ， 并 且 和 矩阵 
是 任意 的 ， 则 二 次 判别 式 函数 在 小 数据 集 上 会 有 很 大 的 方差 。 理 想 情况 取决 于 已 有 数据 所 表 
示 的 问题 的 复杂 度 和 我 们 所 拥有 的 数据 的 规模 。 当 我 们 拥有 小 数据 集 时 ， 尽 管 协 方差 矩阵 不 
同 ， 但 是 假定 共享 协 方差 矩阵 也 许 更 好 ; 单个 协 方差 矩阵 具有 较 少 参数 ， 并 且 可 以 利用 更 多 
的 数据 来 估计 ， 即 用 所 有 类 的 实例 估计 。 这 相当 于 使 用 线性 判别 式 (linear discriminant) 。 分 
类 经 常用 到 线性 判别 式 ， 我 们 将 在 第 10 章 更 详细 地 讨论 它 。 


表 5-1 通过 简化 假设 降低 方差 
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假 设 协 方差 矩阵 参数 数目 
共享 、 超 球 S,=S=s1 1 
共享 、 轴 对 齐 S,=8, 其 中 sy =0 a 
共享 、 超 椭 球 S, =S d(d«1)/2 
不 同 、 超 椭 球 8, K- (d(d*1)/2) 











注意 ， 当 我 们 用 欧 氏 距离 度量 相似 性 时 ， 我 们 假设 所 有 的 变量 都 具有 相同 的 方差 ， 并 
且 它 们 是 相互 独立 的 。 在 许多 情况 ， 这 并 不 成 立 。 例 如 ， 年 龄 与 年 收入 具有 不 同 的 单位 ， 
并 且 在 许多 情况 下 是 相关 的 。 在 这 种 情况 下 ， 可 以 在 预 处 理 阶段 对 输入 进行 z- 规 范 化 ( 具 
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有 0 均值 和 单位 方差 ) ， 然 后 使 用 欧 氏 距离 。 另 一 方面 ， 有些 时 候 即 使 变量 是 相关 的 ， 如 
果 我 们 没有 足够 的 数据 准确 地 计算 相关 性 ， 也 许 最 好 还 是 假设 它们 不 相关 ， 并 使 用 朴素 
贝 叶 斯 分 类 。 

Friedman( 1989) 提 出 一 个 组 合 所 有 这 些 特殊 情况 的 方法 ， 称 为 正则 化 判别 式 分 析 ( regularized 
discriminant analysis，RDA) 。 我 们 还 记得 ， 正 则 化 方法 对 应 于 从 大 方差 开始 到 小 方差 的 方法 ， 
有 增加 偏 倚 的 风险 。 在 利用 高 斯 密度 的 参数 化 分 类 情况 下 ， 协 方差 矩阵 可 以 表示 成 三 种 特殊 
情况 的 加 权 平 均 : 

S; = ag?1« 8S + (1 - a - )S, (5.29) 

当 ac=B=0 时 ， 我 们 得 到 二 次 分 类 器 。 当 a =0, B=1 时 ， 协 方差 矩阵 被 共享 RNG 
到 线性 分 类 器 。 当 a =1，B =0 时 ， 协 方差 矩阵 是 对 角 阵 ，vz 在 对 角 线 上 ， 我 们 得 到 最 近 均 
值 分 类 。 在 这 些 极 端 情况 之 间 ， 我 们 得 到 所 有 的 不 同 分 类 方法 ， 其 中 a 和 8B 通过 交叉 确认 优 
化 。 

当 数 据 集 较 小 时 ， 另 一 种 正则 化 方法 是 通过 定义 jp, AS, 上 的 先 验 ， 使 用 贝 叶 斯 方法 ， 
或 者 使 用 交叉 确认 选择 表 5-1 中 给 出 的 四 种 情况 中 最 好 者 。 


5.7 离散 特征 


在 许多 应 用 中 ， 我们 有 取 n 个 不 同 值 的 离散 属性 。 例 如 ， 一 个 属性 可 能 是 颜色 e | 红 ， 

蓝 ， 绿 ， 黑 | ， 另 外 一 个 可 能 是 像素 e | 有 ， 无 | 。 我 们 假设 x 是 二 元 的 ( 伯 努 利 ) ， 其 中 
py = P(x, 2 116) 
如 果 x, 是 独立 的 二 元 变量 ， 则 我 们 有 
p(x|C,) = Teva =p)" 
大 
这 是 朴素 贝 叶 斯 分 类 的 另 一 个 例子 ， 其 中 p(x | C,) 是 伯 努 利 分 布 。 判 别 式 函数 是 
g(x) = logp(z|C) + log P(C,) 
= X [slog p, + (1 - x,)log(1 - p,) ] + log P(C,) (5.30) 

它 是 线性 的 。p, 的 估计 是 


B= 2 (5.31) 


在 一 般 情况 下 ， 我 们 假定 x, 选 自 集合 1v,，v,，…，v,| 。 我 们 定义 新 的 0/1 哑 变 量 
Qu PR = 
ki li 否则 
A pa BA x, MEK C,、 取 值 为 w 的 概率 
Pa 9 Plza =1|C) 7 p(x, =v |C) 
如 果 属 性 是 独立 的 ， 则 我 们 有 





ait» 


y 
p(x |C) = T IIe (5.32) 
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于 是 ， 判 别 式 函数 为 


g(x) => Xs log py + log P(C,) (5.33) 
Pu 的 最 大 似 然 估计 为 
uu 2 > 
Pa = us (5.34) 


可 以 将 它们 代入 (5. 33) 式 中 ， 得 到 判别 式 。 
5.8 多 元 回归 


在 多 元 线性 回归 (multivariate linear regression) 中 ， 假 定数 值 输出 r 为 线性 函数 ， 即 一 些 
输入 变量 * oe, x, 和 噪声 的 加 权 和 。 实 际 上 ， 在 统计 学 中 ， 这 称 为 多 元 (multiple) 回归 ; 
当 存在 多 个 输出 时 ， 统 计 学 家 使 用 术语 multivariate( 多元) 。 多 元 线性 模型 是 

r' = g(x‘ | w.,w,,*,w,) +E = Wo +wx, +w, +o + Wax, +e (5.35) 

与 一 元 情况 相同 ， 我 们 假设 。 是 正 态 的 ， 具 有 0 均值 和 常数 方差 。 最 大 化 该 似 然 等 价 于 

最 小 化 平方 误差 之 和 : 


Ey yiwa |X) = FD C -wo = mah -mag -e = waag)? (5.36) 
关于 参数 w(Uj=0，…，d) 求 导 ， 我 们 得 到 正规 方程 (normal equation) ; 
Die = Nw, +w, Y x, +w, Y x to Y xy (5.37) 


Dir’ = wD x +w, D (21)? +w, D xix + tw, Y nin 
Dar = wD xh +w, D rias ow (ah)? + + wa > xix, 


X = w J,a +w Y ruri +, D, aur + Y D 
我 们 定义 如 下 的 向 量 与 矩阵 ; 


pes 1 
erc wo r 
2 2 2 
l pom wx w, P 
X= NH INDE , ris 
Non E 
m wa r 


于 是 ， 正 规 方程 可 以 写 为 
X'Xw = X'r (5.38) 
并 且 我 们 可 以 求解 参数 
w = (X'X)"X'r (5.39) 
这 个 方法 与 我 们 在 单个 输入 的 多 项 式 回归 中 所 使 用 的 方法 一 样 。 如 果 我 们 定义 变量 为 
ziz, msa, o, x =o, RA. RRR RI, MR, 如何 做 
多 元 多 项 式 回归 ( multivariate polynomial regression) (参见 习题 5) 。 但 是 ， 除 非 d 很 小 ， 否 则 
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在 多 元 回归 中 ， 我 们 很 少 使 用 比 线性 更 高 阶 的 多 项 式 。 线 性 模型 的 一 个 优点 是 ， 回 归 之 后 ， 
观察 w,(j=1，…，d) 的 值 ， 我 们 可 以 提取 知识 : 首先 ， 观 察 w 的 符号 ， 我 们 就 知道 x, 对 输 
出 结果 的 影响 是 正 的 还 是 负 的 。 第 二 ， 如 果 所 有 的 x, 具有 相同 的 值 域 ， 则 通过 观测 w 的 绝 
对 值 ， 我 们 可 以 知道 特征 的 重要 性 ， 并 按 重 要 性 为 特征 定 秩 ， 甚 至 可 以 去 掉 那 些 wo, 接近 于 0 
的 特征 。 

当 有 多 个 输出 时 ， 可 以 等 价 地 定义 一 组 独立 的 单 输出 回归 问题 。 


5.9 注释 


一 本 更 新 我 们 的 线性 代数 知识 的 好 书 是 Strang 1988。Harville 1997 是 另外 一 本 很 好 的 
书 ， 它 从 统计 学 的 角度 处 理 矩 阵 代数 。 

用 多 元 变量 的 一 个 不 便 之 处 是 ， 当 维 数 很 大 时 ， 不 能 够 进行 可 视 分 析 。 统 计 学 文献 中 已 
经 提出 了 一 些 方法 ， 来 显示 多 元 数据 ; Rencher 1995 给 出 了 综述 。 一 种 可 能 的 方法 是 两 两 变 
量 绘制 二 元 散 点 图 : 如 果 数 据 是 多 元 正 态 的 ， 则 任意 两 个 变量 的 图 应 该 是 大 致 上 线性 的 ; 这 
可 以 用 作 多 元 正 态 性 的 视觉 检测 。 我 们 将 在 第 6 章 中 讨论 的 另外 一 个 可 能 的 方法 是 把 它们 投 
影 到 一 维 或 两 维 上 ， 并 在 那里 显示 。 

模式 识别 的 大 部 分 工作 都 是 在 假定 多 元 正 态 密度 上 进行 的 。 有 时 ， 这 样 的 判别 式 甚至 被 
称 为 贝 叶 斯 最 优 分 类 ， 但 是 这 通常 是 错误 的 ; 只 有 当 密 度 确实 是 多 元 正 态 的 ， 并 且 我 们 有 足 
够 的 数据 来 计算 正确 的 参数 时 ， 它 才 是 最 优 的 。Rencher 1995 讨论 了 评估 多 元 正 态 性 的 检 
验 ， 以 及 检查 相等 协 方差 矩阵 的 检验 。MeLachlan 1992 讨论 了 用 多 元 正 态 分 布 分 类 ， 并 且 比 
较 了 线性 和 二 次 判别 式 。 

多 元 正 态 分 布 的 一 个 明显 的 约束 是 它 不 允许 某 些 特征 是 离散 型 数据 。 一 个 具有 个 可 能 
值 的 变量 可 以 被 转化 成 个 0/1 哑 变 量 ， 但 是 这 增加 了 维度 。 我 们 可 以 用 第 6 章 中 介绍 的 方 
法 在 这 个 n 维 空间 上 进行 维度 归 约 ， 从 而 不 会 增加 维度 。 对 于 这 种 混合 特征 的 参数 分 类 ， 
McLachlan 1992 有 详细 的 讨论 。 


5.10 习题 


1. 证明 (5.11) 式 。 
2. 从 多 元 正 态 密度 N(x，) 产 生 一 个 样本 ,计算 m 和 S 并 将 它们 与 p MER. MA 
本 大 小 变化 时 估计 的 变化 情况 。 


3. 从 两 个 多 元 正 态 密度 N (a, X) (i=1,2) 产 生 样本 ， 并 对 表 5-1 中 的 四 种 情况 计算 贝 叶 
斯 最 优 判 别 式 。 
4. 对 于 两 类 问题 ， 针 对 表 5-1 中 高 斯 密度 的 四 种 情况 ， 推 导 : 
fog PEG 1x) 
P(C, |x) 


5. 假设 我 们 有 两 个 变量 x 和 x*,， 并 且 我 们 想 对 它们 做 二 次 拟 合 ， 即 : 


f(x,,x,) = wy +wx, + Waxy + wx x, + wa (x)? + ws)? 


多 元 方法 67 





给 定 样本 X = {x ，x;，r'| ， 如 何 找到 wi(i=0，…，5)? 
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第 6 章 维度 归 约 


任何 分 类 和 回归 方法 都 依赖 于 输入 的 数量 。 这 决定 了 时 间 和 空间 的 复杂 度 以 及 训练 这 样 
的 分 类 器 和 回归 器 所 需要 的 训练 样 例 数量 。 本 章 中 ， 我 们 讨论 各 种 降低 输入 维度 而 不 损失 准 
确 率 的 方法 。 


6.1 引言 


在 一 个 应 用 中 ,无 论 它 是 分 类 还 是 回归 ， 我 们 确信 含有 信息 的 观测 数据 都 被 用 作 输入 并 
且 输 入 到 系统 中 来 做 决策 。 理 想 情况 下 ， 我 们 不 应 该 将 特征 选择 或 特征 提取 作为 一 个 单独 的 
进程 ;分 类 方法 (或 回归 方法 ) 应 该 能 够 利用 任何 必要 的 特征 ， 而 丢弃 不 相关 的 特征 。 然 而 ， 
有 许多 原因 使 得 我 们 对 把 降 维 作为 一 个 单独 的 预 处 理 步骤 感 兴趣 : 
在 大 多 数学 习 算法 中 ， 复 杂 度 依赖 于 输入 的 维度 d 和 数据 样本 的 规模 N， 并 且 为 了 
减少 存储 量 和 计算 时 间 ， 我 们 对 降低 问题 的 维度 感 兴趣 。 降 低 d 也 降低 了 检验 时 推 
理 算法 的 复杂 度 。 
a ” 当 一 个 输入 被 认定 并 不 必要 时 ， 我 们 就 节省 了 提取 它 的 开销 。 
较 简单 的 模型 在 小 数据 集 上 更 为 鲁 棒 。 较 简单 的 模型 具有 较 小 的 方差 ， 也 就 是 说 ， 
它们 的 变化 更 少 地 依赖 于 样本 的 特殊 性 ， 包 括 噪声 、 离 群 点 等 。 
se 当 数据 能 够 用 较 少 特征 解释 时 ， 我 们 就 能 够 更 好 地 理解 解释 数据 的 过 程 ， 这 使 得 我 
们 能 够 提取 知识 。 
- 当 数据 可 以 用 少数 维 表示 而 不 丢失 信息 时 ， 我 们 可 以 对 数据 绘图 ， 并 可 视 化 地 分 析 
它 的 结构 和 离 群 点 。 
降低 维度 的 主要 方法 有 两 种 : 特征 选择 和 特征 提取 。 在 特征 选择 (feature selection) 中 ， 
我 们 感 兴趣 的 是 从 d 维 中 找 出 为 我 们 提供 最 多 信息 的 上 个 维 ， 并且 丢弃 其 他 的 (d - 6) 个 维 。 
作为 一 种 特征 选择 方法 ， 我 们 将 要 讨论 子 集 选择 ( subset selection) 。 
在 特征 提取 (feature extraction) 中 ， 我 们 感 兴趣 的 是 找 出 个 维 的 新 集合 ， 这 些 维 是 原来 
d 个 维 的 组 合 。 这 些 方法 可 以 是 监督 的 ， 也 可 以 是 非 监督 的 ， 这 取决 于 它们 是 否 使 用 输出 信 
息 。 最 著名 和 最 广泛 使 用 的 特征 提取 方法 是 主 成 分 分 析 (PCA) 和 线性 判别 分 析 (LDA)。 它 
们 都 是 线性 投影 方法 ， 分 别 是 非 监督 和 监督 的 。PCA 与 其 他 两 种 非 监 督 的 线性 投影 方法 有 
许多 相似 之 处 。 我 们 也 将 讨论 这 两 种 方法 一 一 因子 分 析 (FA) 和 多 维 定 标 (MDS) 。 


6.2 子 集 选 择 


在 子 集 选择 (subset selection) 中 ， 我 们 对 发 现 特征 集中 的 最 佳 子 集 感 兴趣 。 最 佳 子 集 包 
含 的 维 最 少 ， 而 它们 对 正确 率 的 贡献 最 大 。 我 们 丢弃 剩余 的 不 重要 的 维 。 使 用 一 个 合适 的 误 
差 函 数 ， 最 佳 子 集 在 回归 和 分 类 问题 中 都 可 以 使 用 。d 个 变量 有 2 个 可 能 子 集 ， 但 是 除非 d 
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很 小 ， 否 则 我 们 不 能 对 所 有 子 集 进行 检验 。 我 们 使 用 启发 式 的 方法 ， 在 合理 的 (多 项 式 ) 时 
闻 内 得 到 一 个 合理 的 (但 不 是 最 优 的 ) 解 。 

有 两 种 方法 : 在 向 前 选择 (forward selection) 中 ,我们 从 空 集 开 始 ， 逐 个 添加 它们 每 次 
添加 一 个 降低 误差 最 多 的 变量 ， 直 到 进一步 的 添加 不 会 降低 误差 (或 降低 很 少 )。 在 向 后 选 
择 (backward selection) 中 ,我 们 从 所 有 变量 开始 ， 逐 个 排除 它们 ， 每 次 排除 一 个 降低 误差 最 
多 (或 提高 很 少 ) 的 变量 ， 直 到 进一步 的 排除 会 显著 提高 误差 。 在 这 两 种 情况 下 ， 误 差 检测 
都 应 该 在 不 同 于 训练 集 的 确认 集 上 进行 ， 因 为 我 们 想 要 检验 泛 化 准确 率 。 使 用 更 多 的 特征 ， 
我 们 一 般 会 有 更 低 的 训练 误差 ， 但 是 不 一 定 有 更 低 的 确认 误差 。 

RMH F 表示 输入 维 的 特征 x (i=l, =, PURA, ERRARE F PHA 
时 ， 在 确认 样本 上 出 现 的 误差 。 依 赖 于 应 用 ， 误 差 或 者 是 均 方差 误差 ， 或 者 是 误 分 类 错误 。 

在 顺序 向 前 选择 ( sequential forward selection) 中 ， 我 们 从 F = 名 开始 ,每 一 步 中 ， 我 们 针 
对 所 有 可 能 的 x,， 训 练 我 们 的 模型 并 在 确认 集 上 计算 E( FUzx,)。 然 后 ， 我 们 选择 导致 最 小 
误差 的 输入 z 

j = arg min E(F U x,) (6.1) 
并 且 我 们 
Af x, Men] FP oR ECF U x) <E(F) (6.2) 

如 果 添 加 任何 特征 都 不 会 减少 E， 则 我 们 停止 。 如 果 误 差 降低 太 小 ， 我 们 甚至 可 以 决定 
提前 停止 ; 这 里 存在 一 个 用 户 定义 的 阔 值 ， 依 赖 于 应 用 约束 以 及 错误 和 复杂 度 的 折 中 。 增 加 
另外 一 个 特征 带 来 观测 该 特征 的 开销 ， 也 会 使 分 类 器 /回归 器 更 加 复杂 。 

这 样 的 过 程 也 许 开销 很 大 ， 因 为 将 d 维 减少 到 上 维 ， 我 们 需要 训练 和 测试 系统 d+(d- 
1) +(d-2) +…+(d- 有 次 ,其 复杂 度 为 O( 必 ) 。 这 是 一 个 局 部 搜索 过 程 ， 并 且 不 能 保证 
找到 最 佳 子 集 ， 即 导致 最 小 误差 的 最 小 子 集 。 例 如 ，x, 和 x, 本 身 可 能 不 好 ， 但 是 合 起 来 却 
可 能 会 把 误差 降低 很 多 。 但 是 该 算法 很 贪 禁 ， 逐 个 增加 特征 ， 因 此 它 也 许 不 能 发 现 *, 与 % 
的 并 。 以 更 多 计算 为 代价 ， 一 次 增加 m 个 而 不 是 一 个 特征 是 可 能 的 。 我 们 还 可 以 在 当前 添 
加 之 后 回溯 并 且 检查 以 前 添加 的 哪个 特征 可 以 去 掉 ， 这 增 大 了 搜索 空间 但 是 也 增加 了 复杂 
度 。 在 浮动 搜索 (floating search) Jj 1 ( Pudil, Novovicová 和 Kittler 1994) ， 每 一 步 还 可 以 改 
变 增 加 和 去 掉 的 特征 数量 。 

在 顺序 向 后 选择 (sequential backward selection) 中 ,我 们 从 包括 所 有 特征 的 下 开始 ， 并 且 
执行 类 似 的 过 程 ， 但 是 与 添加 相反 ， 我 们 从 F 中 去 掉 一 个 特征 ， 并 且 是 去 掉 导致 误差 最 小 
的 那个 

j = arg min E(F - x,) (6.3) 
而 我 们 
从 下 中 去 掉 %, 如 果 ECF - x) ECF) (6.4) 

如 果 去 掉 特征 不 能 降低 误差 时 我 们 就 停止 。 为 了 降低 复杂 度 ， 我 们 可 能 也 会 决定 去 掉 一 
个 特征 ， 如 果 它 的 去 掉 只 引起 很 轻微 的 误差 增加 。 

向 前 搜索 的 所 有 可 能 变 体 对 于 向 后 搜索 也 是 可 行 的 。 向 后 搜索 与 向 前 搜索 具有 相同 的 复 
杂 度 。 但 是 ， 训 练 具有 较 多 特征 的 系统 比较 训练 具有 较 少 特征 的 系统 开销 更 大 ， 并 且 如 果 我 
们 预料 有 许多 无 用 特征 时 ， 向 前 搜索 更 可 取 。 

子 集 选 择 是 监督 的 ， 因 为 输出 被 回归 器 或 分 类 器 用 作 计算 误差 但 是 它 可 以 用 于 任何 回 
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归 和 分 类 方法 。 在 多 元 正 态 分 类 的 特殊 情况 下 ， 如 果 原 来 的 d 维 类 密度 是 多 元 正 态 的 ， 则 其 
任意 子 集 也 是 多 元 正 态 的 ， 并 且 仍 然 可 以 使 用 参数 分 类 ,并 具有 用 xk 维 协 方差 矩阵 代替 
dxd 维 协 方差 矩阵 的 优点 。 

在 像 人 脸 识别 这 样 的 应 用 中 ， 特 征 选择 不 是 降 维 的 好 方法 ， 因 为 个 体 像素 本 身 并 不 携带 
很 多 识别 信息 ; 携带 脸 部 识别 信息 的 是 许多 像素 值 的 组 合 。 这 可 以 通过 我 们 后 边 将 要 讨论 的 
特征 提取 方法 来 做 。 i 


6.3 主 成 分 分 析 


在 投影 方法 中 ， 我 们 感 兴趣 的 是 找到 一 个 从 原 d 维 输入 空间 到 新 的 (一 d) 维 空间 的 、 
具有 最 小 信息 损失 的 映射 。z 在 方向 w 上 的 投影 为 

z= WX (6.5) 

主 成 分 分 析 ( principal components analysis, PCA) 是 一 种 非 监 督 方 法 ， 因 为 它 不 使 用 输 

出 信息 ; 需要 最 大 化 的 是 方差 。 主 成 分 是 这 样 的 w,， 样 本 投影 到 w, 上 之 后 被 广泛 散布 ， 

使 得 样本 点 之 间 的 差别 变 得 最 明显 。 为 了 得 到 唯一 解 并 且 使 该 方向 成 为 最 重要 因素 ， 我 们 要 


RK iw, 1 =1。 从 (5.14) 式 我 们 知道 ， 如 果 z, =wx, IFA Cov(x) ==, W 
Var(z,) = wiXw, 
我 们 寻找 w, ,使 得 Var(z ) 受 限于 约束 wiw, = 1 最 大 化 。 将 这 写成 拉 格 朗 日 问题 ， 我 们 得 到 
max wiXw, - a(wiw, 一 1) (6.6) 


关于 w, 求 导 并 令 它 等 于 0， 我 们 有 
2X, - 2dwj =.0;) o B Xn ol, 
如 果 w, 是 三 的 本 征 向 量 ，a 是 对 应 的 本 征 值 ， 则 上 式 成 立 。 因 为 我 们 有 
wiXw, = aww, = a 

为 了 方差 最 大 ， 我 们 选择 具有 最 大 本 征 值 的 本 征 向 量 。 因 此 ， 主 成 分 是 输入 样本 的 协 方差 矩 
阵 的 具有 最 大 本 征 值 ,=a 的 本 征 向 量 。 

第 二 个 主 成 分 w 也 应 该 最 大 化 方差 ， 具 有 单位 长 度 ， 并 且 与 w, 正 交 。 后 者 的 要 求 是 使 
得 投影 后 z, =wix 与 a 不 相关 。 对 于 第 二 个 主 成 分 ， 我 们 有 


max wiEw, - a(wiw, - 1) - B(wiw, -0) (6.7) 
关于 w, 求 导 并 令 它 等 于 0， 我 们 有 
2Xw, -2aw, - Bw, = 0 (6.8) 


Hw 左 乘 ， 我 们 得 到 
2wiXw, -2awiw, - Bwiw, = 0 
注意 wiw, 20. wiEw, 是 标量 ， 等 于 它 的 转 置 wzZw,， 这 里 w 2D MERGE HE, 
Iw, =Aw,， 因 此 
wiXw, = wIZmwi = A,wiw, = 0 
于 是 B=0， 并 且 (6.8) 式 可 以 简化 为 
Ew, = aw, 


这 表明 w 应 该 是 并 的 本 征 向 量 ， 具 有 第 二 大 本 征 值 a = ae。 类 似 地 ， 我 们 可 以 证 明 其 他 维 
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被 具有 递减 的 本 征 值 的 本 征 向 量 给 出 。 

因为 三 是 对 称 的 ， 因 此 对 于 两 个 不 同 的 本 征 值 ， 本 征 向 量 是 正 交 的 。 如 果 卫 是 正定 的 
(对 于 所 有 的 非 空 x，x7Sr> 之 0) ， 则 它 的 所 有 本 征 值 都 是 正 的 。 如 果 三 是 奇异 的 ， 则 它 的 
KABA) Ak, HA R<d, A(i=k+1, +, d) OCA, 以 递减 序 排序 ) o k ARAE 
零 本 征 值 的 本 征 向 量 是 约 化 空间 的 维 。 第 一 个 本 征 向 量 ( 具 有 最 大 本 征 值 的 向 量 )w,( 即 为 主 
成 分 ) 贡 献 了 方差 的 最 大 部 分 ， 第 二 个 贡献 了 方差 的 第 二 大 部 分 ， 依 此 类 推 。 

我 们 定义 

z= W'(x-m) (6.9) 

其 中 W f k ES HR PEARED, dE X ATE. RIIE x 投影 前 减 去 均值 m， 将 数 
据 在 原点 中 心 化 。 该 线性 变换 后 ， 我 们 得 到 维 空间 ， 它 的 维 是 本 征 向 量 ， 并且 在 这 些 新 维 
上 的 方差 等 于 本 征 值 ( 见 图 6-1)。 为 了 规范 化 方差 ,我 们 可 以 除 以 本 征 值 的 平方 根 。 


x P * 


=> 


a 


5 n 


图 6-1 主 成 分 分 析 使 样本 中 心 化 ， 然 后 旋转 坐标 轴 与 最 大 方差 方向 一 致 。 如 果 za 上 的 方差 太 小 ， 
则 可 以 忽略 它 ， 并 且 我 们 得 到 从 二 维 到 一 维 的 维度 归 约 


让 我 们 来 看 另 一 种 推导 : 我 们 想 要 找到 一 个 矩阵 W， 使 得 当 我 们 有 z = WIx (BRAK 
一 般 性 ,x 已 经 被 中 心 化 ) 时 ， 我 们 将 得 到 Cov(z) = D', Jtr D' 是 任意 对 角 阵 ; 也 就 是 说 ， 
我 们 希望 得 到 不 相关 的 zo 
如 果 我 们 建立 一 个 d xd 的 矩阵 C， 其 第 i 列 是 S 的 规范 化 的 本 征 向 量 c,， 则 C'C =I， 并 且 
S = SCC’ 
= S(e,,c, ,,0,) C7 
= (Se, „Se, ,---,Se,)C” 
= (Aye, Axe ,77,A,0,) C" 
= Aye, + + A 
= CDC’ (6.10) 
其 中 DD 是 对 角 矩 阵 ， 其 对 角 线 元 素 是 本 征 值 A,，…，As。 这 称 为 S 的 谱 分 解 (spectral 
decomposition) HF C 是 正 交 的 ， 并 且 CC7 = C'C = I， 我 们 可 以 在 上 式 左 乘 以 C7， 右 乘 
以 C， 得 到 
c’sc =D (6.11) 
我 们 知道 如 果 z= W'x, M Cov(z) = W'SW, 我们 希望 它 等 于 一 个 对 角 和 矩阵 。 于 是 ， 从 
(6. 11) 式 我 们 看 到 ， 可 以 令 W = C. 
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让 我 们 看 一 个 例子 ， 以 便 得 到 一 些 直观 体验 ( Rencher 1995) ; 假设 我 们 有 一 班 学 生 的 五 
门 课程 的 成 绩 ， 并 且 我 们 希望 对 这 些 学 生 排序 。 也 就 是 说 ， 我 们 希望 把 这 些 数据 投影 到 一 个 
维 上 ， 使 得 这 些 数据 点 之 间 的 差别 最 明显 。 我 们 可 以 用 PCA。 具 有 最 大 本 征 值 的 本 征 向 量 是 
最 大 方差 的 方向 ， 也 就 是 学 生 最 为 分 散 的 方向 。 这 样 做 比 计算 平均 值 好 ， 因 为 我 们 考虑 了 方 
差 的 相关 性 和 区 别 。 


实践 中 ， 即 使 所 有 本 征 值 都 大 于 0, 但 是 如 果 | S | 很 小 (注意 1S | = II Ai), BAR 


们 知道 ， 某 些 本 征 值 对 方差 影响 很 小 ， 并 且 可 以 丢弃 。 因 此 ， 我 们 考虑 例如 贡献 90% 以 上 
方差 的 前 个 主要 成 分 。 当 A, 降序 排列 时 ， 由 前 上 个 主要 成 分 贡献 的 方差 比例 ( proportion of 
variance ) 为 
Ay + A + "+A 

如 果 维 是 高 度 相关 的 ， 则 只 有 很 少 一 部 分 本 征 向 量具 有 较 大 的 本 征 值 ,和 远 比 d 小 , 并 
且 可 能 得 到 很 大 的 维度 归 约 。 在 许多 图 像 和 语音 处 理 任务 中 ,通常 是 这 种 情况 ， 其 中 (时 间 
或 空间 ) 邻 近 的 输入 是 高 度 相关 的 。 如 果 维 之 间 互 不 相关 ,上 将 与 d 一 样 大 ， 通 过 PCA 就 没 
有 收益 。 

CH] (scree graph) 是 把 贡献 的 方差 作为 本 征 向 量 编号 的 函数 的 图 形 ( 见 图 6-2) 。 通 过 
目 视 分 析 ， 我 们 也 可 以 确定 上 。 在 “拐点 ”处 ,增加 其 他 本 征 向 量 不 会 显著 地 增加 贡献 的 
方差 。 

200 p 


0 10 20 30 


40 
本 征 向 量 
a) Optdigits 的 斜坡 图 








e 





0 10 20 30 40 
本 征 向 量 
b) 所 贡献 的 方差 比例 
图 6-2 a) 斜 坡 图 。b) 对 于 取 自 UCI 知识 库 的 Optdigits 数据 集 ， 显 示 所 贡献 的 方差 比例 。Optdigits 是 
手写 数字 数据 集 ， 具 有 10 个 类 和 64 维 输入 。 前 20 个 本 征 向 量 贡献 了 90% 的 方差 
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另 一 个 可 能 的 方法 是 忽略 那些 本 征 值 小 于 平均 输入 方差 的 本 征 向 量 。 给 定 EA, = 8? 
(等 于 矩阵 S 的 迹 ， 记 作 tr(S) )， 平均 本 征 值 等 于 平均 输入 方差 。 当 我 们 仅 保留 本 征 值 
大 于 平均 本 征 值 的 本 征 向 量 时 ， 我 们 仅 保留 了 那些 其 方差 大 于 平均 输入 方差 的 本 征 
向 量 。 

如 果 原 x, 维 的 方差 变化 显著 ， 则 它们 对 主 成 分 方向 的 影响 比 相 关 性 大 。 因 此 ， 一 个 公 
共 过 程 是 在 使 用 PCA 之 前 对 数据 进行 预 处 理 ， 使 得 每 个 维 都 具有 0 均值 和 单位 方差 。 或 者 ， 
为 了 使 协 方差 而 不 是 个 体 方差 起 作用 ， 我 们 可 以 使 用 协 相 关 矩阵 R 而 不 是 协 方差 矩阵 S 的 
本 征 向 量 。 

PCA 解释 方差 并 对 离 群 点 很 敏感 : 少量 远离 中 心 的 点 对 方差 有 很 大 影响 ， 从 而 也 对 本 
征 向 量 有 很 大 影响 。 重 棒 的 估计 (Robust estimation ) 方 法 允许 计算 离 群 点 存在 时 的 参数 ! 一 
种 简单 的 方法 是 计算 数据 点 的 Mahalanobis 距离 ， 丢 弃 那 些 远离 的 孤立 数据 点 。 

如 果 前 两 个 主 成 分 贡献 方差 的 很 大 百分比 ， 则 我 们 可 以 做 目 视 分 析 : 我 们 可 以 在 这 个 二 
维 空间 绘制 数据 ( 见 图 6-3) ， 目 视 地 搜索 结构 、 组 、 离 群 点 、 正 态 性 等 等 。 相 对 于 原来 的 任 
何 两 个 变量 的 图 ， 该 图 对 样本 给 出 了 更 好 的 图 形 描述 。 通 过 观察 主 成 分 的 维 ， 我 们 还 可 以 试 
着 揭示 一 些 有 意义 的 描述 数据 的 潜在 变量 。 例 如 ， 在 图 像 应 用 方面 ， 输 入 是 图 像 ， 本 征 向 量 
可 以 显示 为 图 像 ， 并且 可 以 看 作 重要 特征 的 模板 ; 它们 常常 被 形象 地 称 为 “本 征 面孔 ” 
(eigenface)、“ 本 征 数字 ” (eigendigit) 等 (Turk 和 Pentland 1991)。 

= PCA 之 后 的 Optdigits 


20 











-40 -30 -20 -10 0 10 20 30 40 
第 一 个 本 征 向 量 
图 6-3 绘制 在 两 个 主 成 分 空间 的 Optdigits 数据 。 只 显示 了 100 个 数据 点 的 标号 ， 

以 便 最 小 化 墨 噪 比 (ink-to- noise ratio) 
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4d BAM, 计算、 存储 、 处 理 S 都 很 繁琐 。 我 们 可 以 直接 从 数据 计算 本 征 向 量 、 本 征 
值 ， 而 不 必 显 式 地 计算 协 方差 矩阵 (Chatfield 和 Collins 1980) 。 


从 (5.15) 式 我 们 知道 ， 如果 x = Ni(qu. 3), MBE Wx -N (Wu, WEW). in 


果 样 本 是 d 元 正 态 的 ， 则 它 投 影 到 上 元 正 态 上 ， 人 允许 我 们 在 很 有 希望 的 、 低 得 多 的 维 空间 进 
行 参数 判别 分 析 。 因 为 5 是 不 相关 的 ， 因 此 新 的 协 方差 矩阵 将 是 对 角 的 。 如 果 它 们 被 规范 
化 ， 具 有 单位 方差 ， 则 可 以 在 这 个 新 空间 使 用 欧 氏 距离 ， 导 出 简单 的 分 类 器 。 

实例 x' 投影 到 z- 空 间 

z= W'(x' -p) 
4 W 是 正 交 和 矩阵 使 得 WW" =I 时 ， 它 可 以 逆 投 影 到 原来 的 空间 
x = We' tp 

i Er 从 它 在 z- 空 间 中 的 表示 的 重 构 。 我 们 知道 ， 在 所 有 正 交 线性 投影 中 ，PCA 最 小 

化 重 构 误差 (reconstruction error) 。 重 构 误 差 是 实例 与 它 的 从 低 维 空间 重 构 之 间 的 距离 : 


Elka h: (6.12) 


重 构 误 差 取 决 于 考虑 了 多 少 个 主 成 分 。 在 视觉 识别 应 用 中 ， 例 如 ， 人 脸 识别 ， 显 示 x 
使 得 我 们 能 够 可 视 化 地 检查 PCA 期 间 的 信息 损失 。 

PCA 是 非 监督 的 ， 并 且 不 利用 输出 信息 。 它 是 一 个 一 组 (one- group) 过 程 。 然 而 ， 在 分 
类 情况 下 会 有 很 多 组 Karhunen-Loève 扩展 ( Karhunen-Lo&ve expansion) 允许 利用 类 信息 ; 例 
如 ， 我 们 不 是 使 用 整个 样本 的 协 方差 矩阵 ， 而 是 估计 类 的 协 方差 矩阵 ， 取 它们 的 平均 (用 先 
验 加 权 ) 作为 协 方差 矩阵 ， 并 使 用 它 的 本 征 向 量 。 

在 公共 主 成 分 (common principal component) 中 (Flury 1988) ， 我 们 假设 对 于 每 个 类 ， 主 
成 分 都 是 相同 的 ， 但 是 对 于 不 同 的 类 ， 这 些 成 分 的 方差 不 同 : 

S, = CDCr 

这 种 方法 允许 汇聚 数据 ， 并 且 是 一 种 正则 化 方法 ， 它 的 复杂 度 比 所 有 类 的 公共 协 方差 矩 
阵 的 方法 小 ， 同 时 仍 允 许 S, 存在 差别 。 一 种 相关 的 方法 是 柔性 判别 分 析 ( flexible discriminant 
analysis) (Hastie, Tibshirani 和 Buja 1994) ， 它 将 数据 线性 投影 到 所 有 特征 都 是 不 相关 的 低 维 
空间 ， 再 用 最 小 距离 分 类 。 


6.4 因子 分 析 


在 PCA 中 ,从 原来 的 维 x,(i=1，…，d) ， 我 们 形成 一 个 新 的 变量 集 zx， 它 是 x, 的 线性 
组 合 : 
z= W'(r-p) 
在 因子 分 析 (factor analysis, FA) 中 ， 我 们 假定 有 一 个 不 可 观测 的 潜在 因子 (latent factor) 
z(-1,--, 上) 的 集合 ， 它 在 组 合 时 生成 x。 因 此 ， 与 PCA 的 方向 相反 (参见 图 6-4) ， 其 目 
标 是 通过 较 少 数量 的 因子 刻画 观测 变量 之 间 的 依赖 性 。 
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6-4 主 成 分 分 析 方 法 产生 新 的 变量 ,它们 是 原 输入 变量 的 线性 组 合 。 然 而 ， 在 因子 分 析 ， 
我 们 假定 存在 一 些 因子 ， 它 们 线性 组 合 时 产生 输入 变量 


假设 有 一 个 变量 组 ， 它 们 之 间 具 有 高 度 相关 性 ， 而 与 其 他 所 有 变量 具有 很 低 的 相关 性 。 
那么 可 能 存在 一 个 简单 的 潜在 因子 给 出 这 些 变量 的 起 源 。 如 果 其 他 变量 能 够 类 似 地 分 成 子 
集 ， 则 少数 因子 就 能 够 代表 这 些 变量 组 。 虽 然 因子 分 析 总 是 把 变量 划分 成 因子 和 能， 但 是 因子 
是 否 意味 着 什么 ， 或 是 否 真 的 存在 ， 仍 然 是 一 个 悬而未决 的 问题 。 

像 PCA 一 样 ，FA 也 是 一 个 一 组 过 程 ， 并 且 是 非 监督 的 。 目 标 是 在 一 个 更 小 的 维 空间 中 
对 数据 建 模 而 不 丢失 信息 。 在 FA 中 ， 这 用 变量 之 间 的 相关 性 度量 。 

正如 在 PCA 中 一 样 ， 我 们 有 样本 X = |x'|,， 取 自 某 个 未 知 的 概率 密度 ， 其 中 E[x] =u, 
Cov(x) = 三 。 我 们 假定 因子 是 单位 正 态 的 Elz] =0, Var(z) =1， 并 且 是 不 相关 的 Cov(z,, 
2) =0, i # jo 为 了 说 明 什么 是 不 能 由 因子 解释 的 ， 每 个 输入 存在 一 个 附加 的 源 ， 记 作 so 
假定 它 具 有 0 均值 E[e,] =0， 和 某 个 未 知 的 方差 Var(s,) = 多 。 这 些 特殊 的 源 之 间 是 不 相关 
的 Cov(s,, e) =0, i 4 j, 并 且 与 因子 也 是 不 相关 的 Cov(e,, 2) =0, Vi, jo 


FA 假定 每 个 输入 维 x, (L8 1, …，d) 可 以 写成 上 < d HAF Gul, ns k) AMAA, 
加 上 残 差 项 ( 见 图 6-5) : 
P te toy te, Vim dyes 


" 


X, 一 和 (6.13) 
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图 6-5 因子 是 独立 的 、 单 位 正 态 的 ， 它 们 被 延伸 、 旋 转 和 变换 ， 以 成 为 输入 


这 可 以 写成 向 量 矩 阵 形式 
= -= Vz+e (6.14) 
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Hp V ed xk RBM, FREI FRA (factor loading) 。 从 现在 开始 ， 不 失 一 般 性 ， 我 们 
将 假设 =0; 我 们 总 能 在 投影 后 加 上 yp。 给 定 Var(z,) =1 和 Var(e,) - V, 
Var(x,) = vj & v5 + o6 vh o V, (6.15) 
1 吕 是 公共 因子 贡献 的 部 分 ， 而 于 ,是 针对 x, 的 方差 。 
用 向 量 矩 阵 形式 ， 我 们 有 
X = Cov(x) = Cov(Vz+e) (6.16) 
= Cov( Vz) + Cov(e) 
= VCov(z) V + W 
= VVT + 里 (6.17) 
其 中 wv ERMER, V, 在 对 角 线 上 。 由 于 因子 是 不 相关 的 、 单 位 正 态 的 ， 因 此 我 们 有 
Cov(z) =Is 例如 ， 对 于 两 个 因子 
Cov(x, 35) = Vatn Puta 
WR x, Ax, 的 协 方差 高 ， 则 它们 通过 一 个 因子 相关 。 如 果 它 是 第 一 个 因子 ， 则 w, 和 
ui 都 高 ; 如 果 它 是 第 二 个 因子 ， 则 wa 和 wa 都 高 。 在 这 两 种 情况 下 ， 和 win + wawa 都 将 会 
高 。 如 果 该 协 方差 低 ， 则 x 和 x, 依赖 于 不 同 的 因子 ， 并 且 在 和 式 的 乘积 中 ， 一 项 高 而 另 一 
项 低 ， 而 它们 的 和 低 。 
我 们 看 到 
Cov(z,,z,) = Cov(v:2.,2;) = vu Var(z) = vy 
Hit, Cov(x, z) =V， 并 且 我 们 看 到 载荷 用 因子 表示 变量 之 间 的 相关 性 。 
给 定 号 的 估计 S， 我 们 希望 求解 V 和 时， 满足 
S=VV ew 
如 果 只 有 少量 因子 ， 即 如 果 V 只 有 少数 几 列 ， 则 因为 V 是 dxk 而 里 有 d 个 值 ， RAN 
就 能 有 一 个 关于 S 的 简化 结构 ， 这 样 参 数 的 数量 从 d 减少 到 d «kd. 
因为 于 是 对 角 的 ， 因 此 协 方差 由 V 表示 。 注 意 ，PCA 不 允许 单独 的 于 并 且 试 图 考虑 协 
方差 和 方差 。 当 所 有 的 到 相等 时 ， 即 当 w= WI 时， 我们 得 到 概率 PCA ( probabilistic PCA) 
(Tipping 和 Bishop 1997) ， 而 当 Y, 为 0 时， 得 到 传统 的 PCA. 
现在 ， 让 我 们 来 看 怎样 找到 因子 载荷 和 特定 的 方差 : 我 们 首先 忽略 S Wa, MEW 
谱 分 解 ， 我 们 知道 有 
S = CDC' = CD?D'?c' = (CD'*)(CD"*)’ 
其 中 ,通过 观察 贡献 的 方差 比例 ， 我 们 只 取 上 个 本 征 向 量 ， 使 得 C JE d x k BAR AES RE, 
Ti D'OE kxk 对 角 和 矩阵 ， 其 对 角 线 上 的 值 是 本 征 值 的 平方 根 。 这 样 ， 我 们 有 
V = cD” (6.18) 
从 (6. 15) 式 我 们 可 以 得 到 更 
= x4 (6.19) 


fa 


注意 当 V 与 任 一 正 交 和 矩阵 ( 即 具 有 TT = 工 性 质 的 矩阵 ) 相 乘 ， 它 就 是 另 一 个 有 效 解 ， 因 
此 解 不 是 唯一 的 。 
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S = (VT)(VT)' = VTT’V’ = VIV! = vv" 
WRT LEZ, WAR ER AE. WF z=Tx, W 
zz = (Tx)'CTx) = x" T'Tx = x"x 
乘 以 一 个 对 角 和 矩阵 具有 旋转 坐标 轴 的 效果 ， 这 人 允许 我 们 选择 最 可 解释 的 坐标 集合 
(Rencher 1995) 。 在 两 维 中 ， 
aed (m — sing) 
sind cos 
将 坐标 旋转 由 度 。 有 两 种 类 型 的 旋转 : 在 正 交 旋转 中 ， 旋 转 后 因子 仍然 正 交 ; 在 斜 旋转 中 ， 
人 允许 因子 变 成 相关 的 。 旋 转 因子 为 每 个 变量 在 尽 可 能 少 的 因子 上 给 出 最 大 载荷 ， 使 得 因子 可 
解释 。 然 而 ， 可 解释 性 是 主观 的 ， 不 应 该 被 用 来 强加 个 人 对 数据 的 偏见 。 
因子 分 析 有 两 种 用 法 : 当 我 们 找到 载荷 并 且 试图 使 用 较 少 因子 表示 变量 时 ， 它 可 以 用 来 
提取 知识 。 当 k<d 时， 它 也 可 以 被 用 来 降低 维度 。 我 们 已 经 看 到 了 第 一 个 是 怎么 做 的 。 现 
在 ， 让 我 们 看 一 下 因子 分 析 怎样 被 用 来 降低 维度 。 
当 我 们 对 维度 归 约 感 兴趣 时 ， 我 们 需要 能 够 从 x, 发 现 因子 得 分 5。 我 们 希望 找到 载荷 
wn， 使 得 


zc Yee jsd,ek (6.20) 
Mb x, 被 中 心 化 ， 具 有 均值 0。 在 向 量 形式 ， 对 于 观测 :， 这 可 以 写作 
geWr'te,  Vt-dyeN 
这 是 一 个 线性 模型 ， 有 4 个 输入 和 上 个 输出 。 其 转 置 可 以 写作 
G)! = QW +e’, VE de N 
给 定 我 们 有 一 个 X 个 观测 的 样本 ， 我 们 记 
Z-XW-«8 (6.21) 


JP Z JEN x kf, X 是 Nxd 个 (中 心 化 的 ) 观 测 ， 而 s 是 Nxk 个 0 均值 噪声 。 这 是 一 
个 多 输出 的 多 元 线性 回归 ， 并 且 我 们 从 S. 8 节 知道 ， 可 以 求解 W 得 到 

W = (X'X) 'X’Z 
但 是 我 们 不 知道 Z; 这 是 我 们 要 计算 的 。 我 们 在 两 边 同 时 乘 以 和 除 以 N -1， 得 到 








a X'Z 
W = (N -1)(X"X) Srey 
ply BS xr 
m (y -1) N-1 
=S'v (6.22) 
并 且 把 (6. 22) 式 代入 (6. 21) 式 中 ， 我 们 记 作 
Z = XW = XS"'V (6.23) 


假定 S 是 非 奇 异 的 。 当 x, 被 规范 化 具有 单位 方差 时 ， 我 们 可 以 用 及 代替 S 
对 于 维度 归 约 ， 除 了 因子 的 可 解释 性 ， 人 允许 识别 公共 原因 、 简 单 解释 、 知 识 提取 外 ， 
FA 与 PCA 相 比 并 无 优势 。 例 如 ， 在 语音 识别 ，x 对 应 声音 信号 ， 但 是 我 们 知道 这 是 少数 的 
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RERE, DI, E. AS WEAD ROGER) 相互 作用 的 结果 ， 它 们 被 适当 的 定位 用 
来 形成 从 肺 部 出 来 的 气流 ， 进 而 产生 语音 。 如 果 语 音信 号 可 以 转换 到 这 个 发 音 分 析 的 空间 ， 
则 语音 识别 就 会 非常 容易 。 这 是 当前 语音 识别 的 研究 方向 之 一 。 


6.5 多 维 定 标 


假设 我 们 有 N 个 点 ， 并 且 给 定 每 对 点 之 间 的 距离 dj, i, j=1，…，N。 我 们 不 知道 这 些 
点 的 确切 坐标 ， 也 不 知道 它们 的 维度 ， 以 及 距离 是 怎样 计算 的 。 多 维 定 标 ( multidimensional 
scaling, MDS) 是 把 这 些 点 映射 到 低 维 (例如 ， 两 维 ) 空间 的 方法 ， 使 得 它们 在 两 维 空间 中 的 
欧 氏 距离 尽 可 能 接近 在 原 空间 中 给 定 的 距离 4;。 这 样 ， 它 需要 一 个 从 某 个 未 知 维度 空间 到 
低 维 空间 ， 例 如 两 维 空间 上 的 投影 。 

在 典型 的 多 维 定 标 例子 中 ， 我 们 取 城 市 之 间 的 道路 旅行 距离 ， 在 应 用 MDS 后 ， 我 们 得 
到 一 张 近似 地 图 。 这 个 地 图 被 扭曲 ， 在 存在 诸如 高 山 和 湖泊 等 地 理 障碍 物 的 部 分 ， 道 路 旅行 
距离 大 大 的 偏离 了 直接 的 飞行 距离 ( 欧 氏 距离 )， 这 个 地 图 被 拉 伸 ， 以 便 适应 更 长 的 距离 ( 见 
图 6-6) 。 该 地 图 以 原点 为 中 心 ， 但 是 解 仍 然 不 是 唯一 的 。 我 们 可 以 得 到 任意 的 旋转 和 镜像 
版 本 。 
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图 6-6 MDS 绘制 的 欧洲 图 。 城 市 包括 雅典 、 柏 林 、 都 柏林 、 赫 尔 辛 基 、 伊 斯 坦 布尔 、 里 斯 本 、 伦 敦 、 
马德里 、 莫 斯 科 、 巴 黎 、 罗 马 和 苏黎世 。 这 些 城市 之 间 逐 对 道路 旅行 距离 作为 输入 给 出 ， 并 且 
MDS 把 它们 放 到 两 维 的 空间 中 ， 使 得 这 些 距离 尽 可 能 地 被 保持 


可 以 使 用 MDS 进行 维度 归 约 : 通过 计算 d HE x 空间 的 逐 对 欧 氏 距离 并 把 它 作 为 MDS 的 
输入 。 然 后 ，MDS 把 它 投影 到 较 低 维 的 空间 ， 以 保持 这 些 距 离 。 
假设 我 们 有 通常 的 样本 X= |x'1.,， 其 中 x'eR*。 对 于 两 个 点 r 和 s， 它 们 之 间 的 平方 
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欧 氏 距离 为 
d = x -x I? = Le -x)? = ar -29 ax + Xe 
=b, +b, -2b, (6.24) 
其 中 如 定义 为 
b, = Pee (6.25) 
为 了 约束 这 个 解 ， 我 们 把 数据 在 原点 中 心 化 并 假定 
X4 =0,, ,Yi= 1,.,d 


然后 ,在 r，s 和 r,s 二 者 上 把 (6.24) 式 加 起 来 ,并 且 定 义 
?3 Phy yu» 


我 们 得 到 
Ed, = 7+ No, 
x4 = Mb, + 了 
> x4 -2NT 
当 我 们 定义 m 


1 1 2 1 
d, = vue d. = NE, d. = nil Zo 
并 使 用 (6. 24) 式 时 ， 我 们 得 到 
如 = id. +d,- t, -d,) (6.26) 


现在 ， 已 经 计算 了 b FEA B =XX (in 6.25 式 中 的 定义 ) ， 我 们 寻找 一 个 近似 。 从 谱 
分 解 我 们 知道 X = CD? AT LA BEA YE X 的 一 个 近似 ， 其 中 C 是 矩阵 ， 其 列 是 B 的 本 征 向 量 ， 
而 D“ 是 对 角 矩 阵 ， 其 对 角 线 是 本 征 值 的 平方 根 。 观 察 B 的 本 征 值 ， 像 我 们 在 PCA 和 FA 中 
所 做 的 那样 ， 我 们 确定 比 4( 入) 低 的 维度 k。 我 们 假设 e, 是 本 征 向 量 ， 其 对 应 的 本 征 值 为 
Ajo 注意 c, 是 NN 维 的。 于 是 ,我 们 得 到 新 的 维 

zc4Ae, jzlssk, tal NW (6.27) 

也 就 是 说 ， 在 标准 化 后 ， 实 例 :的 新 坐标 由 本 征 向 量 e, =1，…， 有 的 第 :个 元 素 给 出 。 

已 经 证 明 ( Chatfield 和 Collins 1980) XX" (N x N) 5j X'X(d xd) 的 本 征 值 相 同 ， 并 且 本 征 
向 量 通过 一 个 简单 的 线性 变换 相关 。 这 说 明 PCA 做 了 与 MDS 相同 的 工作 ， 并 且 代价 更 低 。 
在 相关 矩阵 而 不 是 在 协 方差 矩阵 上 做 PCA 等 价 于 用 标准 化 的 欧 氏 距离 做 MDS， 其 中 每 个 变 
量 有 单位 方差。 

在 一 般 情况 下 ， 我 们 希望 寻找 一 个 映射 z==g(x | 9)， 其 中 zeg':，re%:， 并 且 8(z16) 
是 根据 参数 9 的 集合 定义 的 从 d 维 到 维 的 映射 函数 。 前 面 我 们 讨论 的 经 典 的 MDS 对 应 线 
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性 变换 

z= g(x|W) = Wx (6.28) 
但 是 在 一 般 情 况 下 ， 也 可 以 使 用 非 线性 的 映射 ; 这 称 作 Sammon 映射 (Sammon mapping). FE 
映射 中 的 标准 化 误差 称 作 Sammon 应 力 (Sammon stress) ， 定 义 为 





roo- y ee We FD 
四 Ix -x d 
edo AER 
.y Qro -crlo = pe sm os 
四 Ix -el 


可 以 对 g(* | 6) 使 用 任何 回归 方法 ， 估 计 9 来 最 小 化 训练 数据 X 上 的 应 力 。 如 果 g C) 在 
上 是 非 线 性 的 ， 这 将 对 应 一 个 非 线 性 的 维度 归 约 。 
在 分 类 的 情况 下 ， 我 们 可 以 在 距离 中 包含 类 信息 ( 见 Webb 1999), 如 
d = (1 - a)d„ + ac, 
SEP c, JE x! Al x’ 所 属 类 之 间 的 “距离 "。 这 个 类 间距 离 应 该 被 主观 地 提供 ， 而 a 用 交叉 确 
认 优 化 。 


6.6 线性 判别 分 析 


线性 判别 分 析 (linear discriminant analysis，LDA) 是 一 种 用 于 分 类 问题 的 维度 归 约 的 监督 
的 方法 。 我 们 由 两 类 来 开始 这 个 问题 的 讨论 ， 然 后 推广 到 天 >2 个 类 。 
给 定 来 自 两 个 类 C, AC 的 样本 ， 我 们 希望 找到 由 向 量 w 定义 的 方向 ， 使 得 当 数据 投影 
Aw ER, 来自 两 个 类 的 样本 尽 可 能 的 分 开 。 正 如 我 们 在 前 面 看 到 的 
z= Wx (6. 30) 
是 x 到 w 上 的 投影 因而 也 是 一 个 从 d HEB) 1 维 的 维度 归 约 。 
m, 和 m, 分 别 是 C, 类 样本 在 投影 前 和 投影 后 的 均值 。 注 意 m, eR! 而 m, eR, RNA 
样本 X= |x',r'| ,使 得 如 果 x'eC, 则 r=1， 而 如 果 x'eC, 则 r=0。 





TE y 
Pm Sr ~ m 
QàEwxXü-ÜU) 0, 
mà trm (6.31) 
KÉ C, 和 C, 的 样本 投影 后 的 散布 (scatter) 是 
s YX x mm) 
= Y (Ox -m)(-r) (6.32) 


投影 后 ， 为 了 使 两 个 类 被 很 好 的 分 开 ， 我 们 希望 均值 尽 可 能 远离 ， 并 且 类 实例 散布 在 尽 
可 能 小 的 区 域 中 。 因 此 ， 我 们 希望 | my m, | 大 ,而 si +5} CL 6-7). A AF 
A (Fisher's linear discriminant) 是 最 小 化 (6.33) 式 的 w。 
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(6.33) 
图 6-7 两 维 、 两 类 的 数据 在 w 上 的 投影 
ESAT, 我们 得 到 
(m, - m)! = (w'm, - w'm,)? 
= w'(m, - m,) (m, - m,)'w 
-2ow'S,w (6.34) 


其 中 S, = (m, - m,) (m, - m,)" 是 类 间 散 布 答 阵 ( between- class scatter matrix) 。 这 个 分 子 是 
投影 后 类 实例 在 其 均值 周围 散布 的 和 ， 并 且 可 以 改写 为 
s= X Ox mr 

= Ewa -m,)(x' = m)'wr 

= w'S\w (6.35) 
其 中 

S, = Yr -m)( -m,)" (6.36) 
是 Ci 的 类 内 散布 给 阵 (within- class scatter matrix), S,/Z, 是 X, 的 估计 。 类 似 地 ，s? = 
w'S,w, JEP S, 2X, (1-7) (x! -m,) (x' -m,)", 并且 我 们 得 到 

$ iai w'Syw 

Hh, S, -S, +S, LAA WA AY A. EE, on 除 以 样本 总 数 是 汇聚 数据 的 方差 。 
(6.33) 式 可 以 改写 为 
wSaw wm -m,) |? 
w'S,w 


关于 w 取 了 的 导数 并 令 其 等 于 0， 我 们 得 到 


J(w) = (6.37) 


w'S,w 
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w'(m, -m,) w'(m, - m,) 
uus SURE WP fal oir] n 
给 定 w'(m, -m,)/w Sew 为 常数 ， 我 们 有 
w = cS; (m, - m,) (6. 38) 


其 中 <。 是 某 个 常数 。 因 为 对 我 们 来 说 重要 的 是 方向 ， 而 不 是 大 小 ， 所 以 我 们 可 以 取 c=1 并 
Rii w, 

WEM p(x|C,) ~N (m, X) 时 ， 我 们 有 线性 判别 式 ， 其 中 w = 王 (u, -ps), 并 且 
我 们 看 到 如 果 类 是 正 态 分 布 的 ， 则 费 希 尔 线性 判别 式 是 最 优 的 。 在 同样 的 假设 下 ， 我 们 还 可 
以 计算 阔 值 w。， 来 分 开 两 个 类 。 但 是 ， 费 希 尔 线性 判别 式 甚至 在 类 不 是 正 态 分 布 时 也 能 使 
用 。 我 们 已 经 把 样本 从 d 维 投影 到 1 HE, 之 后 可 以 使 用 任何 分 类 方法 。 

在 K>2 个 类 的 情况 下 ， 我 们 希望 找到 这 样 的 矩阵 W， 使 得 


z=W's (6.39) 
其 中 z 是 上 维 的 ，W 是 d xk 矩阵 。C, 的 类 内 散布 矩阵 是 
S, = Y,r(x' - m)(x' -m)* (6. 40) 
其 中 ， 如 果 x'eC, 则 r=1， 否 则 为 0。 总 类 内 散布 是 
S, = Xs (6.41) 
当 存 在 K> 2 个 类 时 ， 均 值 的 散布 根据 它们 在 总 均值 周围 的 散布 情况 计算 
iK 
m- xà" (6.42) 
而 类 间 散 布 矩阵 是 
S, = X Nn - m) Cm, =m)" (6.43) 


IEP N, = Xi. BUYSA A 2K fa] Cf PE W'S,W, T BUE JA hY X PI CIS RE W'S,W. 
它们 都 是 k xk 矩阵。 我 们 希望 第 一 个 散布 大 ; 也 就 是 说 ， 在 投影 之 后 ， 在 新 的 上 维 空间 ， 
我 们 希望 类 均值 互相 之 间 尽 可 能 远离 。 我 们 希望 第 二 个 散布 小 ; 也 就 是 说 ， 在 投影 之 后 ， 我 
们 希望 来 自 同一 个 类 的 样本 尽 可 能 接近 它们 的 均值 。 对 于 一 个 散布 (或 协 方差 ) 矩 阵 ， 散 布 
的 一 个 度量 是 行列 式 。 记 住 该 行列 式 是 特征 值 的 乘积 ， 而 特征 值 给 出 沿 着 它 的 本 征 向 量 ( 成 
分 ) 的 方差 。 因 此 ， 我 们 对 最 小 化 (6. 44) 式 的 矩阵 W 感 兴趣 
| W’s,W | 
Tw's,w| 
S,'S, 的 最 大 的 本 征 向 量 是 解 。Ss 是 天 个 秩 为 1 的 矩阵 (m, - m) (m,-m)" HA, HAE 
们 之 中 只 用 -1 个 是 独立 的 。 因 此 ，Se RAMAKK-1, HARMMK=K-1, KH, 
我 们 定义 一 个 新 的 、 较 低 的 -1 维 空间 ， 然 后 在 那里 构造 判别 式 ( 见 图 6-8) 。 虽 然 LDA 
使 用 类 分 离 性 作为 它 的 好 坏 标 准 , 但 是 在 这 个 新 空间 里 可 以 使 用 任意 的 分 类 方法 来 估计 
判别 式 。 


J(W) = (6.44) 
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LDA 后 的 Optdigits 


-4 上 
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图 6-8 绘制 在 LDA 找到 的 前 两 个 维 空间 上 的 Opdigits。 与 图 6-3 比较 ， 正 如 期 望 的 那样 ， 我 们 看 到 LDA 比 
PCA 导致 更 好 的 类 分 离 。 即 便 在 这 个 二 维 空间 《有 9 个 ) ， 我们 也 能 看 到 不 同类 的 分 开 的 去 团 





6.7 注释 


特征 选择 算法 的 一 个 综述 在 Devijer 和 Kittler 1982 中 给 出 。Miller 1990 讨论 了 回归 中 的 
子 集 选 择 。 我 们 讨论 的 向 前 和 向 后 搜索 过 程 是 局 部 搜索 过 程 。Fukunaga 和 Narendra (1977 ) 
提出 了 一 种 分 支 和 限制 (branch 和 bound) 过 程 。 以 更 大 的 开销 为 代价 ， 我 们 可 以 使 用 诸如 模 
拟 退 火 或 者 遗传 算法 这 样 的 随机 过 程 ， 在 搜索 空间 中 进行 更 广泛 的 搜索 。 对 于 分 类 ， 取 代 每 
步 训 练 一 个 分 类 器 并 对 它 测试 ， 我 们 可 以 使 用 像 在 线性 判别 式 分 析 中 使 用 的 启发 式 方法 ， 来 
度量 新 空间 把 类 彼此 分 开 的 质量 (MeLachlan 1992) 。 

投影 方法 需要 数值 输入 ， 并 且 离散 变量 应 该 用 0/1 哑 变 量 表示 ， 而 子 集 选择 可 以 直接 使 
用 离散 输入 。 寻 找 特 征 向 量 和 特征 值 是 非常 直接 的 ， 一 个 代码 的 例子 在 Press 等 1992 中 给 
出 。 因 子 分 析 是 由 英国 的 心理 学 家 Charles Spearman 引入 的 ， 用 于 发 现 智力 的 单个 因素 ， 来 
解释 不 同 智力 测试 得 分 之 间 的 联系 。 这 种 单个 因子 ( 称 为 5) 的 存在 性 是 讨论 的 课题 。 更 多 关 
于 多 维 定 标的 信息 可 以 在 Cox 和 Cox 1994 中 找到 。 

我 们 讨论 的 投影 方法 是 批 过 程 ， 因 为 它们 要 求 在 发 现 投影 方向 之 前 给 定 整个 的 样本 。 
Mao 和 Jain(1995 ) 讨 论 做 PCA 和 LDA 的 在 线 过 程 ， 其 中 样 例 被 逐个 给 出 ， 并 且 更 新 随 新 实 
例 的 到 达 而 进行 。 

本 章 讨论 的 线性 投影 方法 具有 局 限 性 。 在 许多 应 用 中 ， 特 征 以 非 线性 方式 互相 影响 ， 需 
要 非 线 性 特征 提取 方法 。 主 曲线 (principal curve) ( Hastie 和 Stuetzle 1989) 允许 非 线性 投影 ， 
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并 且 与 直线 相反 ， 它 寻找 一 条 穿 过 一 组 数据 “中 间 ” 的 光滑 的 曲线 。 做 非 线性 投影 的 另外 
一 种 可 能 的 方法 是 Sammon 映射 的 估计 被 取 作 非 线性 函数 ， 例 如 ， 多 层 感知 器 (11.11 节 ) 
(Mao 和 Jain 1995) 。 进 行 非 线性 的 因子 分 析 也 是 可 能 的 ， 但 是 相当 困难 。 当 模型 是 非 线性 
的 时 ， 构 建 一 个 正确 的 非 线性 模型 是 很 困难 的 。 我 们 还 需要 用 复杂 的 优化 和 逼近 方法 来 求解 
模型 参数 。 

特征 提取 和 决策 制定 之 间 有 一 个 权衡 。 如 果 特 征 提取 很 好 ， 分 类 (或 回归 ) 的 任务 变 得 
微不足道 。 例 如 ， 当 类 代码 被 作为 新 的 特征 从 现 有 特征 中 提取 出 来 时 就 是 如 此 。 另 一 方面 ， 
如 果 分 类 方法 足够 好 ， 则 没有 必要 进行 特征 提取 ; 它 自 己 做 它 的 自动 特征 选择 或 者 内 部 组 
合 。 我 们 处 于 这 两 个 理想 世界 之 间 。 

存在 一 些 算法 ， 它 们 内 部 做 某 些 特征 选择 ， 尽 管 是 以 有 限 的 方式 。 决 策 树 (第 9 dE) 在 
产生 决策 树 时 进行 特征 选择 ， 而 多 层 感知 器 (第 11 章 ) 在 隐藏 节点 做 非 线性 的 特征 提取 。 我 
们 期 望 沿 着 这 个 方向 ， 在 耦合 特征 提取 和 其 后 的 分 类 或 回归 方面 取得 更 多 进展 。 


6.8 习题 


1. 假定 类 是 正 态 分 布 的 ， 在 子 集 选 择 中 ， 当 一 个 变量 被 添加 或 去 掉 时 ， 如 何 快速 计算 新 的 
判别 式 ? 例如， 如 何 从 Sw 计算 Soh? 

2. 使 用 取 自 UCI 知识 库 中 的 Optdigits 实现 PCA。 对 于 不 同 数量 的 本 征 向 量 ， 重 构 数 字 图 像 
并 计算 重 构 误 差 (6. 12) 式 。 

3. 给 定 道路 旅行 距离 作为 输入 ， 使 用 MDS 绘制 你 所 在 州 或 国家 的 地 图 。 

4. 在 Sammon 映射 中 ， 如 果 映 射 是 线性 的 ， 即 g(x |W) = W'x*， 如 何 计算 最 小 化 Sammon 应 
力 的 W? 
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第 7 章 R X 


在 参数 方法 中 ， 我 们 假设 样本 来 自 一 个 已 知 的 分 布 。 当 这 种 假设 站 不 住 脚 时 ， 我 们 放宽 
该 假设 ， 并 使 用 半 参 数 方法 ， 允 许 用 混合 分 布 估计 输入 样本 。 聚 类 方法 允许 从 数据 中 学 习 混 
合 分 布 。 除 了 概率 建 模 之 外 ， 我 们 还 讨论 向 量 量化 和 层次 聚 类 。 


7.1 引言 


在 第 4 章 和 第 5 章 中 ， 我 们 讨论 了 密度 估计 的 参数 方法 ， 在 那里 我 们 假设 样本 X 取 自 某 
个 参数 族 ， 例 如 高 斯 族 。 在 参数 分 类 中 ， 这 对 应 为 类 密度 p(x | C,) 假 定 某 种 密度 。 参 数 方 
法 的 优点 是 ， 给 定 一 个 模型 ， 问 题 归结 为 少量 参数 的 估计 。 对 于 密度 估计 ， 参 数 是 密度 的 充 
分 统计 量 。 例 如 ， 对 于 高 斯 密度 ， 参 数 为 均值 和 协 方差 。 

尽管 参数 方法 使 用 频繁 ， 但 是 对 于 假定 并 不 成 立 的 许多 应 用 来 说 ， 假 定 一 个 严格 的 参数 
模型 可 能 是 偏 倚 根 源 。 因 此 我 们 需要 更 灵活 的 模型 。 尤 其 是 ， 假 定 高 斯 密度 对 应 假定 样本 
(例如 一 个 类 的 实例 ) 形 成 4- 维 空间 中 的 单个 分 组 ， 并 且 正 如 我 们 在 第 5 章 所 看 到 的 ， 该 分 
组 的 中 心 和 形状 分 别 由 均值 协 方差 给 定 。 

然而 ， 在 许多 应 用 中 ， 样 本 不 是 一 个 分 组 ， 而 可 能 有 多 个 分 组 。 以 手写 字符 识别 为 例 ; 
有 两 种 风格 书写 数字 7; 美洲 人 的 写法 是 “7' ， 而 欧洲 人 的 写法 是 中 间 有 一 个 水 平 杠 C 
洲 人 手写 的 、 上 面 有 一 小 划 的 “1” 以 示 区 别 )。 在 这 种 情况 下 ， 当 样本 包含 来 自 两 个 洲 的 
实例 时 ， 数 字 7 应 当 表 示 成 两 个 不 相交 的 分 组 。 如 果 每 个 分 组 用 一 个 高 斯 分 布 表示 ， 则 该 类 
可 以 用 两 个 高 斯 分 布 的 混合 分 布 表示 ， 每 个 高 斯 分 布 用 于 一 种 书写 风格 。 

类 似 的 例子 是 语音 识别 ， 其 中 由 于 不 同 的 发 音 、 口 音 、 性 别 、 年 龄 等 ， 相 同 的 词 可 能 以 
不 同 的 方法 读 出 。 这 样 ， 当 没有 单个 、 通 用 的 原型 时 ， 为 了 统计 上 的 正确 性 ， 应 当 在 密度 中 
表示 所 有 这 些 不 同 的 方法 。 

我 们 称 这 种 方法 为 半 参 数 密度 估计 (semiparametric density estimation) ， 因 为 我 们 仍然 对 
样本 中 的 每 个 分 组 假定 一 个 参数 模型 。 在 第 8 章 ， 我 们 将 讨论 非 参数 方法 。 当 数据 没有 结 
构 ， 甚 至 连 混合 模型 都 不 能 使 用 时 ， 可 以 使 用 非 参 数 方法 。 本 章 我 们 致力 于 密度 估计 ， 而 将 
监督 学 习 放 到 第 12 章 。 


7.2 混合 密度 
混合 密度 ( mixture density ) 记 作 


: 
P(x) = Y p(x1G.)P(G,) (7.1) 
HPG 是 混合 分 支 ( mixture component) ， 也 称 分 组 ( group) R (cluster), p(x |G) J& & BA 
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(component density) ， 而 P(G,) 是 混合 比例 (mixture proportion) 。 分 支 数 上 是 超级 参数 ,应当 
预先 指定 。 给 定 样本 和 上， 学 习 对 应 估计 支 密度 和 比例 。 当 我 们 假定 支 密度 遵守 参数 模型 
时 ,我们 只 需要 估计 它们 的 参数 。 如 果 支 密度 是 多 元 高 斯 的 ， 则 我 人 有 p(x lG) ~N, 
E), MD = (PCG), pi ,11.1 是 应 当 从 独立 同 分 布 的 样本 X= |x'|, 中 学 习 的 参数 。 

参数 分 类 是 名 副 其 实 的 混合 模型 ， 其 中 分 组 G, 对 应 类 C,， 支 密度 p(x | 9,) 对 应 类 密度 
plx |C), M PICORER P(C): 


x 
p(x) = Y p(x| C) P(C) 
f 


在 这 种 监督 情况 下 ， 我 们 知道 有 多 少 个 分 组 ， 而 学 习 参 数 却 是 平凡 的 ， 因 为 我 们 有 类 标 
号 ， 即 知道 哪个 实例 属于 哪个 类 (分 支 ) 。 从 第 5 章 我 们 知道 ， 给 定 样本 X= |x', rha X 


中 如 果 x'e C, 则 已 =1， 理 则 性 为 0， 可 以 使 用 最 大 似 然 计算 这 些 参数 。 当 每 个 类 都 是 高 斯 
分 布 时 ， 我 们 有 混合 高 斯 分 布 ， 并 且 参 数 估计 为 
b(e) = 37 


N 





(7.2) 


X,ri(x' - m,) (x! -m)" 
- oF 
本 章 的 不 同 是 样本 为 X= |x'|,， 我 们 有 非 监督 学 习 (unsupervised learning) 问题 。 我 们 
RA x 而 没有 标号 "， 也 就 是 说 我 们 不 知道 x 来 自 哪 个 分 支 。 这 样 ， 我 们 应 当 估 计 二 者 : 
第 一 ， 我 们 应 当 估计 给 定 实例 所 属 的 分 支 标 号 "; 第 二 ， 一 旦 我 们 估计 了 标号 ， 我 们 就 要 估 
计 给 定 实例 集 所 属 分 支 的 参数 。 为 此 ， 我 们 首先 讨论 一 种 简单 的 聚 类 算法 k-i, IEE 
面 证 明 它 是 期 望 最 大 化 ( Expectation- Maximization) 算法 的 一 个 特例 。 


7.8 大 -均值 聚 类 


假设 我 们 有 一 幅 图 像 ， 按 24 位 /像素 存放 ， 而 我 们 可 能 有 多 达 1 600 万 种 颜色 。 假 定 我 
们 有 8 位 /像素 的 彩色 屏幕 ， 只 能 显示 256 种 颜色 。 我 们 想 在 1 600 万 种 颜色 中 找 出 最 佳 的 
256 种 颜色 ， 使 得 仅 用 了 调 色 板 中 256 种 颜色 的 图 像 看 上 去 尽 可 能 接近 原来 的 图 像 。 这 是 凑 
色 量化 (eolor quantization) 问题 ， 其 中 我 们 从 高 分 辩 率 映射 到 低 分 辩 率 。 在 一 般 情况 下 ， 目 
标 是 从 连续 空间 映射 到 离散 空间 ; 这 一 过 程 称 作 身 重量 化 (vector quantization) o 

当然 ， 我 们 总 能 均匀 地 进行 量化 ， 但 是 把 映射 表 目 指派 到 图 像 中 不 存在 的 颜色 ， 或 不 给 
图 像 中 频繁 使 用 的 颜色 分 配 附加 的 表 目 会 错失 颜色 映射 。 例 如 ， 如 果 图 像 是 海景 ， 则 我 们 可 
望 看 到 许多 深浅 不 一 的 蓝 色 而 可 能 不 是 红色 。 因 此， 颜色 映射 表 目的 分 布 应 当 尽 可 能 接近 地 
反映 原来 的 密度 ， 将 更 多 的 表 目 放 在 高 密度 区 域 ， 而 丢弃 没有 数据 的 区 域 。 

假定 我 们 有 样本 X = [xlo RIIA k MRA EE (reference vector) mj; j=1，…，k。 
在 我 们 的 颜色 量化 的 例子 中 ,x' 是 24 位 的 图 像 像素 值 ，m, 是 颜色 映射 表 目 ， 也 是 24 位 ， 
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k=256。 

暂时 假定 我 们 以 某 种 方法 得 到 了 m, 的 值 ; 稍 后 我 们 将 讨论 如 何 学 习 它 们 。 为 了 显示 图 
像 ， 给 定 像素 x*， 我 们 用 颜色 映射 中 最 相似 的 、 满 足下 式 的 表 目 m, RRE 

=! =m, | = min dx’ m, | 

也 就 是 说 ;我 们 使 用 参考 向 量 符号 系统 中 最 接近 的 值 ， 而 不 是 使 用 原始 数据 。m, 又 称 
码 本 向 量 (codebook vector) Be (code word) ， 因 为 这 是 一 个 编码 /解码 过 程 (参见 图 7-1) : 
从 下 到 i 是 使 用 编码 本 m,(i=1，…，) 对 数据 编码 的 过 程 ， 而 在 接收 端 ， 从 i 产生 m, 是 解 
码 。 量 化 也 能 压缩: 例如 ， 赫 代 使 用 24 位 存储 (或 在 通讯 线 上 传输 ) 每 个 x'， 我 们 可 以 只 存 
储 / 传 输 它 在 颜色 映射 中 的 下 标 i， 使 用 8 位 索引 1 到 256 中 的 值 ， 我 们 得 到 几乎 为 3 的 压缩 
Ki 存储 /传输 的 也 是 颜色 映射 












图 7-1 给 定 x， 编 码 器 发 送 最 近 的 码 字 的 下 标 ， 而 解码 器 使 用 接收 到 的 
下 标 产生 码 字 x’, REH |x -x |? 


让 我 们 看 看 如 何 计 算 m: 4 x' Fm, 表示 时 ， 存 在 一 个 正比 于 距离 x' ~ m, || 的 误差 。 
为 了 使 新 图 像 看 上 去 像 原 来 的 图 像 ， 我 们 应 当 针对 所 有 的 像素 ， 使 该 距离 尽 可 能 小 。 总 重 构 
误差 ( reconstruction error) 定 义 为 
E( (mia X) = DD bet =m? (7,3) 
其 中 
ee i 如 果 ‖ - m, || = min; || x' - m, || (7.4) 
0 eH 
最 好 的 参考 向 量 是 最 小 化 总 重 构 误差 的 参考 向 量 。b; 也 依赖 m,， 并 且 我 们 不 能 解析 
地 求解 这 个 优化 问题 。 对 此 ， 我 们 有 一 个 称 作 和 均值 人 肾 类 (k-means clustering) 的 迭代 过 
程 : 首先 ， 我 们 以 随机 初始 化 的 m 开始 。 然 后 ， 在 每 次 迭代 中 ， 我 们 先 对 每 个 **"， 使 
用 (7.4) 式 计算 估计 标号 ( estimated labels) bj; MR 5; Jg 1, Wx 属于 分 组 mo RJE, 
一 旦 我 们 有 了 这 些 标号 ， 我 们 就 最 小 化 (7.3) 式 。 取 它 关 于 m 的 导数 并 令 其 等 于 0， 
我 们 得 到 
Xd 
X 
参考 向 量 被 设置 为 它 所 代表 的 所 有 实例 的 均值 。 注 意 ， 除 了 用 估计 的 标号 b 取代 标号 
外 ， 这 与 (7.2) 式 中 的 均值 公式 相同 。 这 是 一 个 迭代 过 程 ， 因 为 一 旦 我 们 计算 了 新 的 mm,， 以 





ES (7.5) 
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改变 并 且 需 要 重新 计算 ， 这 反 过 来 又 影响 m,。 这 个 两 步 过 程 一 直 重复 ， 直 到 m 稳定 (参见 
图 7-2) 。&- 均 值 算法 的 伪 代 码 在 图 7-3 中 给 出 。 


大 均值 : 初始 第 一 次 迭代 后 

















图 7-2 人 均值 演变 。 叉 指示 中 心 位 置 。 数 据点 根据 最 近 的 中 心 标记 





初始 化 m,, i=l, =, ky 例如 ， 将 mm; 初始 

化 为 上 个 随机 的 x 

Repeat 

For 所 有 的 ex 
fh eR etm, =min [x -m 
xf, 否则 

For BA m, i=l, =, k 

mE, bi" 8 
Until m, ilc iic 











图 7-3 均值 算法 
-均值 的 一 个 缺点 是 它 是 一 个 局 部 搜索 过 程 ， 并 且 最 终 的 m, 高 度 依赖 于 初始 的 m,。 对 
于 初始 化 ， 存 在 各 种 不 同 的 方法 : 
”可 以 简单 地 随机 选择 个 实例 作为 初始 的 m,。 
”可 以 计算 所 有 数据 的 均值 ， 并 将 一 些小 随机 向 量 加 到 均值 上 ， 得 到 * 个 初始 的 me, 
”可 以 计算 主 成 分 ,将 它 的 值 域 化 分 成 个 相等 的 区 间 ， 将 数据 化 分 成 个 分 组 ， 然 
后 取 这 些 分 组 的 均值 作为 初始 中 心 。 


收敛 后 ， 所 有 的 簇 中 心 应 当 涵 盖 数 据 实例 的 某 个 子 集 并 且 是 有 用 的 ， 因 此 ， 最 好 将 中 心 
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初始 化 在 有 数据 的 地 方 。 

还 有 一 些 算法 动态 地 添加 新 中 心 或 删除 空 的 中 心 。 在 领导 者 聚 类 算法 (leader cluster 
algorithm) 中 ， 一 个 远离 (用 一 个 阔 值 定义 ) 已 有 中 心 的 实例 导致 在 该 点 创建 一 个 新 中 心 
(我 们 将 在 第 12 章 讨论 这 样 一 种 神经 网 络 算法 ART) 。 或 者 ， 一 个 涵盖 了 大 量 实例 ( 王 ,以 / 
N09) 的 中 心 可 以 分 裂 为 两 个 (通过 把 一 个 小 随机 向 量 加 到 两 个 拷贝 中 的 一 个 上 ， 使 得 它 
们 不 同 )。 类 似 地 ， 涵 盖 太 少 实例 的 中 心 可 以 删除 ， 并 从 输入 空间 的 某 个 其 他 部 分 重新 
开始 。 

-均值 算法 用 于 聚 类 ， 也 就 是 说 用 于 找 出 数据 的 分 组 ， 其 中 分 组 用 它们 的 中 心 (分 组 的 
典型 代表 ) 表 示 。 向 量 量化 是 聚 类 的 一 种 应 用 ， 但 是 聚 类 也 用 于 分 类 或 回归 阶段 之 前 的 预 处 
理 。 给 定 x"， 当 我 们 计算 b 时 ， 我 们 做 了 从 原来 的 空间 到 k- 维 空间 的 映射 ， 即 映射 到 - 维 
超 立 方 体 的 一 个 阳 角 上 。 然 后 ， 可 以 在 这 个 新 空间 学 习 回归 或 判别 式 函 数 。 我 们 将 在 第 12 
章 讨论 这 样 的 方法 。 


7.4 期望 最 大 化 算法 


在 -均值 中 ,我 们 把 聚 类 看 作 是 寻找 最 小 化 总 重 构 误差 的 码 本 向 量 问 题 。 本 节 中 ,我 

们 的 方法 是 概率 的 ， 并 且 我 们 寻找 最 大 化 样本 似 然 的 支 密度 参数 。 使 用 (7. 1) 式 的 混合 模 
型 ， 样 本 X = fx), 的 对 数 似 然 为 

L£ |x) 


log] ] p(*' | ©) 


= © los d Gt IG) PG) (7.6) 

其 中 中 包含 先 验 概率 P(G,) 和 支 密度 p(x' |G.) 的 有 效 统计 量 。 不 幸 的 是 ， 我 们 不 能 解析 地 
求解 参数 ， 而 需要 借助 于 迭代 优化 。 

期 望 最 大 化 (Expectation-Maximization，EM ) 算 法 (Dempster、Laird 和 Rubin 1977, Redner 
和 Walker 1984) 用 于 最 大 似 然 估计 ， 其 中 问题 涉及 两 组 随机 变量 ,其 中 一 组 XX 是 可 观测 的 ， 
另 一 组 2Z 是 隐藏 的 。 算 法 的 目标 是 找到 参数 向 量 D, CKI X (RUM COS BLA EC |X) 。 
但 是 ， 在 不 可 行 时 ， 我 们 关联 附加 的 隐藏 变量 (hidden variable)Z， 并 使 用 二 者 表示 潜在 的 模 
7h, KAE X MZ 联合 分 布 的 似 然 ， 完 全 (complete) WMA Le( |X, Z). 

由 于 Z 值 不 是 观测 的 ， 我们 不 能 直接 求解 完全 数据 似 然 L[c。 而 是 给 定 X 和 当前 参数 值 
中 '( 其 中 1 是 迭代 次 数 ) ， 我 们 求 它 的 期 望 。 这 是 算法 的 期 望 (E) 步 。 然 后 ， 在 最 大 化 (M) 
步 ， 我 们 寻找 新 的 参数 值 @'… ， 它 最 大 化 期 望 。 这 样 

EJ: Q(® | o') =E[Le(@ |x, Z) |x, 9'] 

M4; Q^ =arg max Q(@ | ') 

Dempster, Laird 和 Rubin(1977) 证 明 增加 & 意 味 着 增加 不 完全 似 然 

CCB |x) = £(9' |x) 

在 混合 模型 的 情况 下 ， 隐 和 藏 变量 是 观测 的 源 ， 即 哪个 观测 属于 哪个 分 支 。 如 果 这 些 被 给 

定 ， 例 如 作为 监督 学 习 的 类 标号 被 给 定 ， 我 们 就 想 知道 调整 哪些 参数 ， 以 便 拟 合 数据 点 。 
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EM 方法 的 执行 过 程 如 下 : 在 步 ， 给 定 分 支 的 当前 知识 ， 我 们 估计 这 些 标号 ; TEM 步 ， 
给 定 玉 步 估计 的 标号 ,我们 更 新 我 们 的 类 知识 。 这 两 步 与 -均值 的 两 步 相同 : 以 的 计算 (E 
步 ) 和 m, 的 重新 估计 (M 步 )。 
我 们 定义 一 个 指示 变量 (indicator variable) 向量 z= {zi, =, 2], HP MR x MER 
Gi， 则 zi=1， 否 则 zi 为 0。z 是 多 项 式 分 布 ， 以 先 验 概率 n 取 自 上 个 类 ， 是 P(G,) 的 简写 。 
于 是 
Pus II: (7.7) 
观测 x 的 似 然 等 于 它 的 概率 ， 被 产生 它 的 分 支 指定 : 
p(x |z) = II»c^»* (7.8) 
p, x) Fe p(x" |9,) 的 简写 。 联 合 密度 为 
p(x',z') = P(z')p(x' |z) 
而 独立 同 分 布 的 样本 X 的 完全 数据 似 然 为 
Le(@ |X,Z) = log] J p(z | 9») 


二 gg 人 eg) 
= > log P(z |) + log p(x' |z',) 
= Y Y llog m, + log p,(2' |) ] 
EJ Rie s 
Q( ID) = E[log P(X,Z) |x,'] 
E[Lc(® |x,Z) |x,0')] 
Y, F ELZ x, d'](log v, + log p,(x' | ©) ] 


其 中 
Elz |x,9'] = Elz | x, 9] x 是 独立 同 分 布 
= P(z = 1|x',o') z X 0/1 随机 变量 
D VEE Ath A 1 ae 
MESI?) 中叶 新 规则 
p.Gr |!) a, 
7 Xp 9), 


= JG [G9 ) PG) _ 
Ep(x'|G, 9) P(G)) 
= P(G,|x',d') = hj (7.9) 
我 们 看 到 隐藏 变量 的 期 望 值 E[z;] 是 x' 被 分 支 G; 产生 的 后 验 概率 。 因 为 这 是 概率 ， 所 以 
它 在 0 和 1 之 间 ， 并且 与 -均值 的 0/1“ 硬 ”标号 不 同 ， 它 是 “ 软 ” 标 号 。 
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MS: 我 们 最 大 化 &， 得 到 下 一 组 参数 值 四” : 
©" = arg max Q(@ | à) 
其 中 
Q(@ |!) = Y Y hillog m, + log p,(x' | &)] 


= Ð Lai log m + Y, Y, hi log p,(x' | 9) 
第 二 项 独立 于 ri， 并 且 作 为 拉 格 朗 日 ,使 用 约束 Xin, = 1, 我 们 求解 
VE Xem -a( Ym -1) =0 


(7.10) 


并 且 得 到 


m, (7.11) 


Eh 
NS 
这 类 似 于 (7.2) 式 的 先 验 计算 。 

类 似 地 ，(7. 10) 式 的 第 一 项 独立 于 分 支 ， 并 且 可 以 在 估计 分 支 的 参数 时 丢弃 。 我 们 解 


"Y L5 log p,(x' | ) = 0 (7.12) 
如 果 我 们 假定 高 斯 分 支 p，(x' | 四) ~N(m,, S), WM 步 为 
m _ EA 
km 
XA! = mi") (xt me) 
EAM 





(7.13) 


S". 


这 里 ， 对 于 了 步 的 高 斯 分 支 ， 我 们 计算 
1 _ m, |S, | 'exp[ - (072) G* - m)'S; (x! -m)] 
! 7 Sym, IS, | expl - (172) (x = m) "S; (X - mp] 
又 一 次 ，(7. 13) 与 (7.2) 式 之 间 的 相似 性 并 非 偶然 ; 估计 的 软 标号 h, 取代 了 实际 (未 知 
Ilse rio 
EM 用 上 -均值 初始 化 。 在 几 次 k-39 (6G FUR, RIAA HO m, 的 估计 ， 并 且 使 用 被 每 
个 中 心 涵盖 的 实例 ， 我 们 估计 S, M EDN 得 到 mi。 从 那 之 后 ， 我 们 运行 EM， 如 图 7-4 
所 示 。 
正如 参数 分 类 (5.5 节 ) ， 使 用 小 样本 和 高 维度 ， 我 们 可 以 通过 化 简 假 设 来 正则 化 。 当 
P(x | 6) ~N(m,, S) 时 ， 在 共享 协 方差 矩阵 的 情况 下 ，(7. 12) 式 化 简 为 





(7.14) 


min Y, Y hi(x' -m)'S^ (x! - mj) (7.15) 
Sp (x' | 0) ~N(m,，s* 了 ) 时 ， 在 共享 对 角 和 矩阵 的 情况 下 ， 我 们 有 
min, yo (7.16) 


这 是 我 们 在 刀 -均值 聚 类 中 定义 的 重 构 误差 (7.3) 式 。 现 在 ， 不 同 的 是 
+ epl- 128) | xt = mil’] 


* " epl- 0727) Nx - m IE] ed 
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是 0 和 1 SARE. kA AEP AY bi 做 0/1 硬 决 策 ， 而 天 是 软 标号 ， 它 以 一 定 概率 
HARRIER. MEH h 而 不 是 &: 时 ， 实 例 对 所 有 分 支 的 参数 更 新 都 有 贡献 ， 对 每 
个 分 支 以 一 定 的 概率 。 当 实例 靠近 两 个 中 心 的 中 点 时 ， 这 特别 有 用 。 这 样 ， 我 们 看 到 
全 均值 聚 类 是 EM 用 于 高 斯 混合 模型 的 特例 ， 假 定 输入 是 独立 的 、 具 有 相等 和 共享 的 方 
X, 并 且 标 号 是 “ 硬 的 ”"。k- 均 值 用 圆 覆 盖 输 入 密度 ， 而 EM 一 般 用 任意 形状 和 任意 方向 
的 椭圆 。 











-40 -30 -20 -10 0 10 20 
x 


图 7-4 数据 点 和 被 EM 拟 合 的 高 斯 分 布 ， 被 图 7-2 的 一 个 k- ER fes 
FAR K-M, EM 允许 估计 协 方差 矩阵 。 图 中 显示 了 被 较 大 的 太 标记 
的 数据 点 、 估 计 的 高 斯 密度 的 围 线 和 =0.5 的 分 离 曲线 ( 虚线 ) 


7.5 潜在 变量 混合 模型 


当 全 协 方差 矩阵 与 高 斯 混合 分 布 一 起 使 用 时 ， 即 使 没有 奇异 性 ， 如 果 输 入 维度 很 高 而 样 
本 很 小 ， 仍 然 有 过 分 拟 合 的 危险 。 为 了 减少 参数 的 个 数 而 假定 具有 共同 的 协 方差 矩阵 可 能 并 
不 正确 ， 因 为 入 实际 上 可 能 具有 不 同 的 形状 。 假 定 对 角 和 矩阵 可 能 更 危险 ， 因 为 这 排出 了 所 有 
的 相关 性 。 另 一 种 选择 是 在 簇 中 做 维 归 约 。 这 减少 了 参数 个 数 ， 但 仍然 捕获 相关 性 。 自 由 参 
数 的 数量 通过 约 化 空间 的 维度 控制 。 

当 我 们 在 焦 中 做 因子 分 析 时 ， 我 们 寻找 产生 能 中 数据 的 潜在 变量 (latent variable) 或 隐藏 
变量 (hidden variable) 或 因子 (factor) ( Bishop 1999) : 

Pr |G) ~ N(m,,V.Vi + 中 ) (7.18) 

其 中 V, Al wp, E G 的 因子 载荷 和 特定 方差 。Rubin 和 Thayer( 1982) 给 出 了 因子 分 析 的 EM 
方法 。 可 以 把 它 推广 到 混合 模型 ， 找 到 混合 国 子 分 析 方 法 ( mixtures of factor analyzers) 
(Ghahramani 和 Hinton 1997) 。 类 似 地 ， 也 可 以 在 分 组 中 做 PCA ， 称 作 混 合 概率 主 成 分 分 析 
方法 (mixtures of probabilistic principal component analyzer) (Tipping 和 Bishop 1999) , 

当然 ， 我 们 可 以 使 用 EM 学 习 S,， 然 后 分 别 在 每 个 马上 做 FA 或 PCA， 但 是 做 EM 更 好 ， 
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因为 它 将 两 个 步骤 结合 在 一 起 ， 并 做 软 划 分 。 每 个 实例 对 所 有 分 组 的 潜在 变量 的 计算 都 有 贡 
WR, BLA hio 


7.6 聚 类 后 的 监督 学 习 


像 第 6 章 讨论 的 维度 归 约 方法 一 样 ， 聚 类 可 以 用 于 两 个 目的 : 它 可 以 用 来 探查 数据 ， 理 
解数 据 的 结构 。 维 度 归 约 方法 用 来 发 现 变量 之 间 的 相关 性 ， 从 而 对 变量 分 组 。 聚 类 方法 用 来 
发 现实 例 之 间 的 相似 性 ， 从 而 对 实例 分 组 。 

如 果 找 到 这 样 的 分 组 ， 可 以 (通过 领域 专家 ) 对 它们 命名 ， 定 义 它 们 的 属性 。 我 们 可 以 
选 组 均值 作为 分 组 中 实例 的 代表 原型 ， 或 者 可 以 写 出 属性 的 可 能 值 域 。 这 可 以 更 简单 地 描述 
数据 。 例 如 ， 如 果 一 个 公司 的 顾客 看 上 去 都 归属 于 上 个 分 组 之 一 〈 顾 客 通过 人 口 统计 属性 和 
与 公司 的 交易 勾画 ) ， 则 将 更 好 地 理解 顾客 要 素 ， 使 得 公司 可 以 对 不 同类 型 的 顾客 使 用 不 同 
的 策略 。 同 样 ， 公 司 还 可 以 为 没有 归于 大 分 组 的 顾客 ， 或 需要 特殊 关注 的 顾客 (例如 ， 定 期 
买卖 的 顾客 ) 制定 策略 。 

聚 类 也 常常 作为 预 处 理 步骤 使 用 。 正 如 第 6 章 的 维度 归 约 使 得 我 们 可 以 映射 到 新 空间 一 
样 ， 聚 类 后 ， 我 们 也 可 以 映射 到 新 的 上 维 空间 ， 其 中 维 是 六 (或 b,， 如 果 损 失 一 些 信息 的 
话 )。 在 监督 学 习 的 背景 下 ， 我 们 可 以 在 新 空间 学 习 判 别 式 或 回归 函数 。 然 而 ， 与 诸如 PCA 
等 维度 归 约 方法 不 同 ， 新 空间 的 维度 上 可 能 比 原 空间 的 维度 4 大 。 

当 我 们 使 用 像 PCA 这 样 的 方法 时 ， 新 的 维 是 原来 的 维 的 组 合 ， 在 新 空间 表示 任意 实例 ， 
所 有 的 维 都 有 贡献 ， 即 所 有 的 非 零 。 在 使 用 像 聚 类 这 种 方法 的 情况 下 ， 新 的 维 是 局 部 定义 
的 ， 存 在 很 多 新 维 5b,， 但 是 它们 之 中 只 有 一 个 (或 几 个 ， 如 果 使 用 hh) 具 有 非 零 值 。 在 前 一 种 
情况 下 ， 存 在 少量 维 ， 但 都 对 表示 起 作用 ; 在 后 一 种 情况 下 ， 存 在 许多 维 ， 但 只 有 少量 起 
作用 。 

在 监督 学 习 前 面 使 用 非 监督 聚 类 或 维度 归 约 的 优点 是 ， 后 者 不 需要 标记 的 数据 标记 数 
据 的 开销 很 大 。 我 们 可 以 使 用 大 量 未 标记 的 数据 学 习 簇 参数， 然后 使 用 少量 标记 的 数据 在 第 
二 阶段 学 习 分 类 或 回归 。 非 监督 学 习 又 称 “ 学 习 通 常 发 生 的 事 ”( Barrow 1989) 。 当 后 随 监 
督学 习 时 ， 我 们 先 学 习 通 常 发 生 的 事 ， 然 后 学 习 它 意味 什么 。 我 们 将 在 第 12 章 讨论 这 种 
方法 。 

对 于 分 类 ， 当 每 个 类 都 是 一 个 由 大 量 分 支 组 成 的 混合 模型 时 ， 整 个 密度 是 混合 的 混合 密 


度 (mixture of mixtures) : 
LE] 
p(x|C,) = à IG) P(S,) 


K 
p(x) = Y p(x|C)P(C)) 


其 中 是 组 成 p(x | C) WARK, GER i Dj 正如 我 们 前 面 所 讨论 的 ， 分 别 为 每 个 
类 学 习 分 支 的 参数 (或 许 在 正则 化 之 后 ) 。 这 上 比 用 许多 分 支 拟 合 所 有 的 类 的 数据 ， 然 后 用 类 
标记 它们 的 方法 好 。 


RR 95 





7.7 层次 聚 类 


我 们 从 统计 学 观点 讨论 了 聚 类 ， 将 聚 类 看 作用 一 个 混合 模型 拟 合 数据 ， 或 找 出 最 小 化 重 
构 误差 的 码 字 。 还 有 一 些 聚 类 方法 ， 它 们 只 使 用 实例 之 间 的 相似 性 ， 而 对 数据 没有 其 他 要 
Rs 目标 是 找 出 分 组 ， 使 得 在 同一 个 分 组 中 的 对 象 比 在 不 同 分 组 中 的 对 象 更 相似 。 这 种 方法 
通过 层次 聚 类 (hierarchical clustering) 实现 。 

这 需要 使 用 定义 在 实例 间 的 相似 性 度量 ， 或 等 价 地 ， 定 义 距离 度量 。 通 常 使 用 欧 氏 距 
离 ， 其 中 我 们 需要 确保 所 有 的 属性 都 具有 相同 的 尺度 。 欧 氏 距 离 是 闵可夫 斯 基 距 离 
(Minkowksi distance) 的 特例 ， 其 中 p =2: 


4 Up 
4G) = [F 7x] 
城市 块 距离 (city-block distance) 容易 计算 x 
‘ 
d,(x',xt) = A la; - 41 


MRR R (agglomerative clustering) WA N 个 分 组 开始 ， 每 个 分 组 最 初 只 包含 一 个 训练 
实例 ， 重 复合 并 相似 的 分 组 形成 较 大 的 分 组 ， 直 到 只 有 一 个 分 组 。 分 裂 聚 类 ( divisive cluste- 
ring) 以 相反 的 方向 ， 从 单个 分 组 开始 ， 并 将 较 大 的 分 组 分 裂 成 较 小 的 分 组 ， 直 到 每 个 分 组 
包含 单个 实例 。 

在 凝聚 算法 的 每 次 迭代 ， 我 们 选择 两 个 最 近 的 分 组 合并 。 在 单 链接 聚 类 (single- link 
clustering) 中 ， 距 离 定义 为 两 个 分 组 的 所 有 可 能 元 素 对 之 间 的 最 小 距离 : 

d(G,,G) = min d(x',x') (7.19) 


6G it" eG, 


考虑 一 个 加 权 的 完全 连接 的 图 ;顶点 对 应 实例 ， 顶 点 之 间 的 边 的 权重 对 应 实例 之 间 的 距 
离 。 单 链接 方法 对 应 构造 该 图 的 最 小 生成 树 。 
在 全 链接 聚 类 (complete-link clustering) 中 ， 两 个 分 组 之 间 的 距离 取 所 有 可 能 对 之 间 的 最 
KEN: 
46.8) = | 2 d(x',x') (7.20) 


*6, 


这 两 种 是 最 频繁 使 用 的 、 用 于 选择 最 近 的 分 组 合并 的 度量 。 其 他 可 能 的 选择 是 使 用 所 
有 可 能 点 对 之 间 平 均 距离 的 平均 链接 方法 ， 度 量 两 个 分 组 质心 (均值 ) 之 间距 离 的 质心 
距离 。 

一 旦 运行 了 凝聚 方 法 ， 结 果 通 常 被 绘制 成 一 个 称 作 系 统 树 图 (dendrogram) 的 层次 结构 。 
这 是 一 棵 树 ， 其 中 树叶 对 应 实例 ， 按 照 它们 合并 的 次 序 分 组 。 一 个 例子 在 图 7-5 中 给 出 。 树 
可 以 在 任意 水 平 截断 ， 得 到 期 望 个 数 的 分 组 。 

单 链接 和 全 链接 方法 用 不 同 的 方法 计算 分 组 之 间 的 距离 ， 这 影响 聚 类 结果 和 系统 树 图 : 
在 单 链接 方法 中 ， 两 个 实例 在 水 平 h 合并 为 一 组 ， 如 果 它 们 之 间 的 距离 小 于 A， 或 者 存在 一 
个 中 间 实 例 序 列 使 得 相继 实例 之 间 的 距离 小 于 h。 另 一 方面 ， 在 全 链接 中 ， 一 个 分 组 中 的 所 
有 实例 之 间 的 距离 都 小 于 h。 单 链接 筷 可 能 因 这 种 “链接 ”效应 而 拉 长 。( 在 图 7-5 中 ， 如 
RE e 和 * 中 间 有 一 个 实例 会 怎么 样 ?) 全 链接 艇 趋向 于 更 紧凑 。 
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图 7-5 二 维 数据 集 和 展示 单 链接 聚 类 结果 的 系统 树 图 。 注 意 ， 树 的 树叶 
被 排序 使 得 分 支 不 交叉 。 树 在 期 望 的 值 上 上 截断 以 得 到 入 


7.8 PERT 


像 其 他 学 习 方法 一 样 ， 诊 类 也 有 自己 的 调整 复杂 度 的 控制 参数 ; RRB k AE k, 
聚 类 总 是 找 出 上 个 中 心 ， 不 管 它们 是 实际 上 有 意义 的 分 组 ， 还 是 我 们 使 用 的 算法 强加 的 分 
组 。 存 在 多 种 调整 上 的 方法 : 

= 在 某 些 诸如 颜色 量化 的 应 用 中 , 上 由 应 用 确定 。 

= 使 用 PCA 在 二 维 平面 绘制 数据 可 能 用 来 发 现 数据 的 结构 和 数据 中 的 簇 数 。 

增 量 方法 可 能 有 助 于 确定 k: 设置 允许 的 最 大 距离 等 价 于 设置 每 个 实例 的 允许 的 最 

大 重 构 误差 。 

a 在 某 些 实际 应 用 中 ， 分 组 确认 可 以 人 工地 进行 ， 即 检查 徐 是 否 实际 上 对 数据 中 有 意 
义 的 分 组 编码 。 例 如 ， 在 数据 挖掘 应 用 中 ， 领 域 专家 可 以 做 这 项 工作 。 在 颜色 量化 
P, 我们 可 以 目 视 检查 图 像 ， 检 查 它 的 质量 (尽管 我 们 的 眼睛 和 大 脑 并 不 逐个 像素 分 
HER) o 

依赖 于 我 们 使 用 的 聚 类 方法 类 型 ， 我 们 可 以 将 重 构 误差 或 对 数 似 然 作 为 上 的 函数 绘制 图 
É, 并 找 出 “拐点 "。 足 够 大 的 之 后 ,算法 将 开始 分 裂 分 组 ， 在 这 种 情况 下 ， 重 构 误差 将 
不 会 大 幅度 降低 ， 对 数 似 然 将 不 会 大 幅度 提高 。 类 似 地 ， 在 层次 聚 类 ， 通 过 观察 水 平 之 间 的 
差 ， 我 们 可 以 决定 好 的 划分 。 


7.9 注释 


混合 模型 在 统计 学 中 被 频繁 使 用 。 专 门 的 教科 书包 括 Titterington, Smith 和 Makov 
(1985), McLachlan 和 Basford(1988 ) 的 书 。MeLachlan and Krishnan(1997) 讨 论 了 EM 算法 的 
最 近 进 展 、 如 何 加 快 它 的 收敛 性 和 各 种 变形 。 在 信号 处 理 过 程 中 ，k- 均 值 称 作 Linde- Buzo- 
Gray(LBG ) 算 法 (Gersho 和 Gray 1992) 。k- 均 值 频繁 地 用 于 统计 学 和 信号 处 理 的 各 种 应 用 中 ， 
并 且 具 有 许多 变形 ， 其 中 之 一 是 模糊 -均值 (fuzzy k-means)。 输 入 与 分 支 的 模糊 关系 也 是 一 
个 0 和 1 之 间 的 数 (Bezdek 和 Pal 1995)。Alpaydim(1998) 比 较 了 均值、 模糊- 均值 和 高 斯 
混合 模型 上 的 EM, Xu 和 Jordan( 1996) 给 出 了 EM 与 学 习 高 斯 混合 模型 的 其 他 学 习 算 法 的 比 
较 。 在 小 样本 上 ， 另 一 种 简化 假设 的 方法 是 使 用 贝 叶 斯 方法 (Ormoneit 和 Tresp 1996), Moer- 
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land(1999 ) 在 一 组 分 类 问题 上 比较 了 高 斯 混合 模型 和 潜在 变量 混合 模型 ， 用 实验 展示 了 潜在 
变量 模型 的 优点 。Jain 和 Dubes( 1988) 是 一 本 关于 聚 类 的 书 ， 而 Jain, Murty 和 Flynn( 1999) 
是 一 篇 关于 聚 类 的 综述 。 


7.10 习题 


1. 在 图 像 压 缩 中 ，k- 均 值 可 以 这 样 使 用 : 图 像 被 划分 成 cxe 个 窗口 ， 并 且 这 些 e^ 维 向 量 
构成 样本 。 对 于 给 定 的 (通常 是 2 HE), RAM HR. SAE 
的 下 标 通 过 通信 线路 发 送 。 在 接收 端 ， 通过 使 用 下 标 读 取 参 考 向 量 表 来 重 构图 像 。 写 
一 个 计算 机 程序 ， 对 于 不 同 的 上 和 < 值 做 这 件 事 。 对 每 种 情况 ,计算 重 构 误差 和 压 
缩 率 。 

2. 我 们 可 以 做 刀 均 值 聚 类 ， 划 分 实例 ， 然 后 分 别 在 每 个 分 组 计算 S,。 为 什么 这 不 是 一 种 好 
的 想法 ? 

3. 对 于 共享 任意 协 方差 矩阵 S(7. 15) ALS? 的 情况 ， 共 享 对 角 协 方差 矩阵 (7. 16) 式 的 情况 ， 
ASHE M 步 公式 。 

4. 定义 多 元 伯 努 利 混合 模型 ， 其 中 输入 是 二 元 的 ， 并 推导 EM 公式 。 
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第 8 章 ， 非 参数 方法 


在 前 面 的 章节 中 ， 我们 讨论 了 参数 和 半 参 数 方法 。 在 那里 ， 我 们 假定 数据 取 自 一 个 形式 
已 知 的 概率 分 布 或 混合 分 布 。 现 在 ， 我 们 将 讨论 非 参 数 方法 。 当 输入 密度 上 不 能 做 这 样 的 假 
定时 ， 可 以 使 用 非 参 数 方法 ， 并 让 数据 自己 说 话 。 我 们 考虑 密度 估计 、 分 类 和 回归 的 非 参 数 
方法 ， 并 讨论 它们 的 时 间 和 空间 复杂 度 。 


8.1 引言 


在 参数 方法 中 ， 无 论 是 密度 估计 、 分 类 还 是 回归 ， 我 们 都 假设 了 一 个 在 整个 输入 空间 上 
有 效 的 模型 。 例 如 ， 在 回归 中 ， 当 我 们 假定 线性 模型 时 ， 我 们 假定 对 于 任何 输入 ， 输 出 都 是 
输入 的 相同 的 线性 函数 。 在 分 类 中 ， 当 我 们 假定 正 态 密 度 时 ， 我 们 假定 类 的 所 有 实例 都 取 自 
这 个 相同 的 密度 。 参 数 方法 的 优点 是 ， 它 把 估计 概率 密度 、 判 别 式 或 回归 函数 问题 归结 为 估 
计 少 量 参数 值 。 它 的 缺点 是 ， 假 定 并 非 总 是 成 立 的 ， 并 且 不 成 立时 可 能 导致 很 大 的 误差。 

如 果 我 们 不 能 做 这 种 假设 并 且 不 能 使 用 参数 模型 时 ， 一 种 可 能 的 方法 是 使 用 如 同 我 们 在 
第 7 章 所 看 到 的 半 参 数 的 混合 模型 ， 其 中 密度 表示 成 几 个 参数 模型 的 析 取 。 在 非 参 数 估计 
(nonparametric estimation) 中 ， 我 们 只 假定 相似 的 输入 具有 相似 的 输出 。 这 是 一 种 合理 的 假 
Wi: 世界 是 平稳 的 ， 并 且 无 论 是 密度 、 判 别 式 还 是 回归 函数 都 缓慢 地 变化 。 相 似 的 实例 意味 
相似 的 事物 。 我 们 都 爱 我 们 的 邻居 ， 因 为 他 们 太 像 我 们 。 

这 样 ， 我 们 的 算法 使 用 合适 的 距离 度量 ， 从 训练 集中 找 出 相似 的 实例 ， 并 且 由 它们 插 
值 ， 得 到 正确 的 输出 。 不 同 的 非 参数 方法 在 定义 相似 性 或 由 相似 的 训练 实例 插值 方法 方面 不 
同 。 在 参数 模型 中 ， 所 有 的 训练 实例 都 影响 最 终 的 全 局 估计 。 而 在 非 参 数 情况 下 ， 不 存在 单 
个 全 局 模型 ， 需 要 时 ， 局 部 模型 被 估计 ， 它 们 只 受 邻 近 实例 的 影响 。 

在 机 器 学 习 的 文献 中 ， 非 参数 方法 又 称 基于 实例 (instance-based) 或 基于 记忆 (memory- 
based) 的 学 习 算法 ， 因 为 它们 所 做 的 是 把 训练 实例 存放 在 一 个 查找 表 中 ， 并 且 由 它们 插值 。 
这 意味 所 有 的 训练 实例 都 要 存放 ， 而 存放 所 有 训练 实例 需要 O(N) 存 储量 。 此 外 ， 给 定 一 个 
输入 ， 应 当 找 出 相似 的 训练 实例 ， 而 找 出 它们 需要 O(N) 计 算 量 。 这 种 方法 也 称 情 性 (lazy ) 
学 习 算 法 ， 因 为 不 像 急切 ( eager) 的 参数 方法 ， 当 给 定 训练 集 时 ， 它 们 并 不 计算 模型 ， 而 是 
将 模型 的 计算 推迟 到 给 定 一 个 检验 实例 时 才 进 行 。 对 于 参数 学 习 方法 ， 模 型 都 相当 简单 ， 具 
有 @O(d) 或 O(d ) 量 级 个 参数 ， 并 且 一 旦 从 训练 集中 计算 出 这 些 参数 ， 我 们 保存 模型 并 且 在 计 
算 输出 时 就 不 再 需要 训练 集 了 。 通 常 ，N Ho d( 或 中 ) 大 得 多 ， 而 这 种 存储 和 计算 量 的 增加 是 
非 参数 方法 的 缺点 。 

我 们 从 估计 密度 函数 开始 ， 并 讨论 它 在 分 类 上 的 应 用 。 然 后 ， 我 们 将 该 方法 推广 到 回归 中 。 


8.2 非 参数 密度 估计 
与 通常 的 密度 估计 一 样 ， 我 们 假设 样本 X = [1 沁 , 独 立地 从 一 个 未 知 的 概率 密度 p C) 中 
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抽取 。P(*) 是 p(*) 的 估计 。 我 们 从 单 变量 情况 开始 ， 其 中 * 是 标量 ， 而 稍 后 我 们 推广 到 多 
维 情况 。 
累积 分 布 函 数 F(x) HERR x 的 非 参 数 估计 是 小 于 或 等 于 x 的 样本 所 占 的 比例 


F(x) = sie sal (8.1) 


其 中 #|x <x) 表示 其 x' 小 于 或 等 于 x 的 训练 样本 数 。 类 似 地 ， 密 度 函 数 的 非 参 数 估计 可 以 用 
下 式 计算 


xs 7 <xth} - six <x} (8.2) 


N 
其 中 心 是 区 间 长 度 ， 并 且 假 定 落 和 该 区 间 中 的 实例 x 是 “足够 接近 ”的 。 本 章 提供 的 技术 
是 一 些 变 体 ， 使 用 不 同 的 启发 式 策略 来 确定 邻近 的 实例 和 它们 对 估计 的 影响 。 


8.2.1 直方 图 估计 


最 古老 、 最 流行 的 方法 是 直方 图 (histogram ) 。 在 直方 图 中 ， 输 入 空间 被 划分 成 称 作 箱 的 
相等 区 间 。 给 定 原点 x, 和 箱 宽度 h， 箱 是 区 间 [x。 + mh, x, + (m € 1) h) (m 是 正 整 数 或 负 整 
数 ) ， 而 估计 由 下 式 给 出 


ia) =e Sesame el ates 


在 构造 直方 图 时 ， 我 们 必须 选取 原点 和 箱 宽度 。 原 点 的 选取 影响 靠近 箱 边界 的 估计 ， 但 
影响 估计 的 主要 是 箱 宽度 : 使 用 小 箱 ， 估 计 是 尖峰 的 ， 而 使 用 大 箱 ， 估 计较 光滑 (参见 图 
8-1) 。 如 果 没 有 实例 落 入 箱 中 ， 则 估计 为 0， 并 且 在 箱 边界 处 不 连续 。 直 方 图 的 优点 是 : 一 
且 计算 和 存放 了 箱 估计 ， 我 们 就 不 再 需要 保留 训练 集 。 

04, TOi :h=2 
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图 8-1 各 种 箱 长 度 的 直方 图 。”x ”表示 数据 点 
质朴 估计 法 (naive estimator) (Silverman 1986 ) 使 得 我 们 不 必 设 置 原点 。 它 定义 为 
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b + (8.4) 


并 且 它 等 于 “总 是 落 在 宽度 为 24 的 箱 中 心 的 直方 图 估计 (参见 图 8-2) 。 该 估计 还 可 以 表 
示 为 


wry oe (es! 
B(x) "xA" 5 (8.5) 
其 中 权重 函数 定义 为 
oo = [fF 各 果 |u|<1 
0 否则 


这 就 好 像 每 个 * 都 有 一 个 围绕 它 的 大 小 为 2 的 、 对 称 的 影响 区 域 ， 并 且 对 落 入 该 区 域 的 x 
贡献 1/2。 于 是 ， 非 参数 估计 恰 为 其 区 域 包含 * 的 x' 的 影响 之 和 。 因 为 这 种 影响 区 域 是 “ 硬 
的 ”(0 或 /2) ， 所 以 估计 不 是 连续 函数 并 在 x' th ARR 
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图 8-2 各 种 箱 长 度 的 质朴 估计 


8.2.2 核 估 计 


为 了 得 到 光滑 的 估计 ， 我 们 使 用 一 个 光滑 的 权重 函数 ， 称 作 核 函 数 (kernel function) 。 
最 流行 的 是 高 斯 核 : 








1 u? 
K(u) =la] (8.6) 
核 估计 (kernel estimator) 又 称 Parzen 窗口 (Parzen windows), $ XX 
ws 
BG) = my = (8.7) 


核 函 数 K(*) 决 定 影响 的 形状 ， 而 窗口 宽度 决定 影响 的 宽度 。 就 像 质朴 估计 是 “ 箱 ” 
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的 和 一 样 ， 核 估计 是 “ 凸 块 ”的 和 。 所 有 的 x' 都 对 x* 上 的 估计 具有 影响 ， 并 且 其 影响 随 
la-a | 的 增加 而 平滑 地 减 小 。 

为 了 简化 计算 ， 如 果 |x-x* |>3h， 则 天 (`) 可 以 取 0。 还 可 以 使 用 其 他 容易 计算 的 核 函 
3X. RE K(u) Xt u=0 取 最 大 值 ， 并 且 随 | u | 增加 而 对 称 地 减少 。 

当 记 很 小 时 ， 每 个 训练 实例 在 一 个 小 区 域 都 具有 较 大 影响 ， 而 在 较 远 的 点 上 没有 影 
响 。 当 h 较 大 时 ， 有 更 多 的 核 重 又 ， 而 我 们 得 到 较 光滑 的 估计 (参见 图 8-3)。 如 果 K(:) 
处 处 非 负 并 且 积分 为 1， 即 如 果 它 是 合法 的 密度 函数 ， 则 P(*) 也 是 。 此 外 ，P(*) 将 继承 核 
函数 K(') 的 连续 性 和 可 微 性 。 例 如 ， 如 果 K(') 是 高 斯 函数 ， 则 5(') 将 是 光滑 的 并 且 具 有 
所 有 导数 。 

02 核 估计 : del 














图 8-3 各 种 箱 长 度 的 核 估计 


一 个 问题 是 窗口 宽度 在 整个 输入 空间 上 是 固定 的 。 已 经 提出 各 种 自 适应 方法 将 h AE x 
周围 密度 的 函数 。 


8.2.3 k- 最 近邻 估计 


估计 的 最 近邻 方法 调整 光滑 量 使 之 适应 数据 的 局 部 密度 。 光 滑 度 被 所 考虑 的 近邻 数控 
制 。 近 邻 数 上 远 小 于 样本 规模 NN。 我 们 定义 a。 和 4b 之 间 的 距离 ， 例 如 为 | a -5b | ， 并 对 每 个 
*， 我 们 定义 

di(x) < d(x) < + < d,(x) 

为 从 x 到 样本 中 的 点 按 递减 序 排列 的 距离 : d,(x) 是 最 近 的 样本 的 距离 ，d,(*) 是 次 近 样本 的 
距离 ， 如 此 下 去 。 如 果 x 是 数据 点 ， 则 我 们 定义 du (x) = min, | x -x'| ,并 且 如 果 i 是 最 近 
样本 的 下 标 ， 即 i=arg min, |x-x' |, W d,(x) 2 minz,|x-x | ， 如 此 下 去 。 

k- iÉ A ( k- nearest neighbor，k-nn) 密 度 估计 为 


B(x) = (8.8) 


IM sey 
2Nd, (x) 
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这 就 像 =d,(x) 的 质朴 估计 ， 不同 之 处 是 我 们 不 是 固定 hh 并 检查 多 少 样本 落 和 信箱 中 ， 
而 是 固定 落 人 箱 中 的 观测 数 上 ， 并 计算 箱 的 大 小 。 密 度 高 的 地 方 箱 较 小 ， 而 密度 低 的 地 方 箱 
较 大 (参见 图 8-4) 。 














04, k-NN 估 计 : k=5 
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图 8-4 各 种 值 的 -最 近邻 估计 


k-nn 估计 不 是 连续 的 ; 它 的 导数 在 所 有 的 地 (x +a) ERRA ERE, Jep al E 


样本 的 顺序 统计 量 。k-nn 不 是 概率 密度 函数 ， 因 为 它 的 积分 为 x ， 而 不 是 1。 
为 了 得 到 更 光滑 的 估计 ， 我 们 可 以 使 用 其 影响 随 距离 增加 而 减 小 的 核 函数 


^ NE 

B®) "ya c hr o (E 
AMRAH AGE ROENER MCA =d, GO BELA ICE, KORENA. 
8.3 到 多 变 元 数据 的 推广 


给 定 d- 维 观测 的 样本 X = |x'1,., ， 多 元 核 密度 估计 为 





p(x) "uA i£) (8.10) 
满足 必要 条 件 
NO =1 
一 个 显然 的 候选 是 多 元 高 斯 核 : 
2 
K(u) = (a) [-15E] (8.11) 


然而 ， 由 于 维 灾难 (curse of dimensionality) ， 在 高 维 空间 使 用 非 参数 估计 时 需要 小 心 : 
令 x 是 8 维 的 ， 我 们 使 用 每 维 10 个 箱 的 直方 图 ， 则 有 10* 个 箱 。 除 非 我 们 有 大 量 数据 ， 否 
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则 大 部 分 箱 为 空 ， 并 且 那 里 的 估计 为 0。 在 高 维 空间 , “近邻 ”概念 也 变 得 模糊 不 清 ， 因 此 
在 选择 h BAL 

例如 ，(8. 11) 式 中 欧 几 里 德 范 数 的 使 用 意味 核 在 所 有 维 上 都 具有 相等 的 尺度 。 如 果 输 
入 具有 不 同 的 尺度 ， 则 应 当 将 它们 规范 化 ， 使 其 具有 相同 的 方差 。 这 还 没有 考虑 相关 性 ， 并 
且 当 核 函数 与 潜在 的 分 布 具有 相同 形式 时 ， 将 获得 更 好 的 结果 


1 1 
K(u) = ea n 'u] (8.12) 


其 中 S 是 样本 协 方差 矩阵 。 这 对 应 使 用 Mahalanobis 距离 而 不 是 欧 氏 距离 。 

也 可 以 使 用 局 部 距离 度量 ， 其 中 S 由 x 附近 的 实例 计算 ， 例 如 由 最 近 的 上 个 实例 计算 。 
注意 ， 局 部 计算 的 S 可 能 是 奇异 的 ， 可 能 需要 PCA( 或 是 LDA， 在 分 类 的 情况 中 ) 。 

如 果 输 入 是 离散 的 ， 则 我 们 可 以 使 用 汉 明 距离 (Hamming distance) ， 它 对 不 匹配 的 属性 
计数 


à 
HD(x,x') = Y Mx, # xj) (8.13) 
其 中 
让 f wRr # x 
0 否则 


然后 ， 在 使 用 1 x -x || (x — x) S^! (x -x') 的 地 方 使 用 HD(x, x 进行 核 估计 或 找 
出 上 个 最 近邻 。 


8.4 非 参数 分 类 


当 用 于 分 类 时 ， 我 们 使 用 非 参 数 方法 估计 类 条 件 密度 p(x | C,) 。 类 条 件 密度 的 核 估计 
由 下 式 给 出 
F 1 eax) 
Bx1c)- TOA A r (8.14) 
其 中 如 果 x'e C, Wr 1, 否则 为 0。N, 是 属于 C, 的 标记 实例 数 ; N, = Yiri。 先 验 密度 
的 MLE 是 P(C,) = NMXN。 于 是 ， 判 别 式 可 以 表示 为 


g(x) = p(x|C,)P(C,) 
LQ .r-xy. 
= wA ^ yr 
HE x 被 指派 到 判别 式 取 最 大 值 的 类 。 公 共 因子 1/( Nh") 可 以 忽略 。 这 样 ， 每 个 训练 实例 都 
为 它 的 类 投票 ， 而 对 其 他 类 没有 影响 ; 投票 的 权重 由 核 函 数 K(') 给 定 ， 通 常 赋予 更 近 的 实 


例 更 高 的 权重 。 
对 于 k-nn 估计 的 特殊 情形 ， 我 们 有 


B(x|C) = 





(8.15) 





k, 
N,V (x) 
其 中 心 是 上 个 最 近邻 中 属于 C, 的 近邻 数 ， 而 V apoE, EEA r= 1z xa) || WY 


(8.16) 
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4- 维 超 球 的 体积 ,这 里 xu JE (BUR IS x 的 近邻 中 ) 第 上 个 距离 x 最 近 的 观测 : V =r e, ca 
是 d 维 单位 球 的 体积 。 例 如 ，ci =2, e m, c, =4m/3， 如 此 等 等 。 于 是 

? B(x|C)P(C) _ k 

P(C,|x) = By E: (8.17) 

k-nn 分 类 法 ( k- nn classifier) 将 输入 指派 到 输入 的 个 最 近邻 中 具有 最 多 实例 的 类 。 所 
有 的 近邻 都 有 相同 的 投票 权 ， 并 且 选 取 上 个 近邻 中 具有 最 多 投票 者 的 类 。 平 局 随意 打破 或 
用 加 权 投 票 。 通 常 , 上 取 奇 数 ， 以 减少 平局 : 难以 区 分 的 情况 一 般 出 现在 两 个 相 邻 的 类 
之 间 。 

再 则 ， 欧 氏 距 离 的 使 用 对 应 假定 不 相关 的 输入 具有 相同 的 方差 。 如 果 不 是 这 种 情况 ， 应 
当选 择 合适 的 度量 。 一 个 例子 是 判别 式 自 适应 最 近邻 ( discriminant adaptive nearest neighbor) 
(Hastie 和 Tibshirani 1996) ， 那 里 局 部 地 估计 将 类 分 离 的 最 佳 距离 。 

k-nn 的 一 种 特殊 情况 是 最 近 和 令 分 类 (nearest neighbor classifier) ， 其 中 k=1， 并 且 输 入 被 
指派 到 最 近 的 模式 所 在 的 类 。 这 将 空间 划分 成 Voronoi BI? ( Voronoi tesselation ) 形式 (参见 图 
8-5), 








x 


图 8-5 虚线 是 Voronoi 图 ， 而 实 线 是 判别 式 。 在 精简 的 最 近邻 中 ， 可 以 删除 
那些 不 参与 定义 判别 式 的 实例 (用 “ * ”标记 ) 而 不 增加 训练 误差 


8.5 精简 的 最 近邻 


非 参数 方法 的 时 间 和 空间 复杂 度 与 训练 集 的 大 小 成 正比 。 已 经 提出 了 一 些 精简 方法 ， 以 
减少 存放 的 实例 数 而 不 降低 性 能 。 其 基本 思想 是 选择 X 的 最 小 子 集 z 使 得 用 Zz 替代 X 时 ， 误 差 
不 增加 (Dasarathy 1991) 。 

最 著名 和 最 早 的 方法 是 精简 的 最 近邻 ( condensed nearest neighbor) ， 那 里 使 用 1- nn 作为 
分 类 的 非 参 数 估计 (Hart 1968), 1-nn 以 分 段 线形 的 方式 逼近 判别 式 ， 并 且 只 需要 保存 定义 


© Voronoi tesselation 又 称 Voronoi diagram, JÈ Georgy Voronoi 提出 的 。 它 由 一 组 由 连接 两 个 相 邻 点 线段 的 垂直 平分 线 
组 成 的 多 边 形 组 成 。 一 一 译 者 注 
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判别 式 的 实例 。 类 区 域内 部 的 实例 不 必 作 为 它 的 同一 类 的 最 近邻 存放 ， 并 且 它 的 缺失 不 会 导 
致 (训练 集 上 的 ) 任 何 错误 (图 8-5)。 这 样 的 子 集 称 作 相 容 子 集 ， 并 且 我 们 希望 找 出 最 小 的 相 
容 子 集 。 

Hart 提出 了 一 种 发 现 z 的 贪心 算法 (图 8-6) : 该 算法 从 空 集 z 开 始 ， 以 随机 次 序 逐 个 扫描 
X 中 的 实例 ， 并 检查 它们 是 否 能 够 被 1- nn 用 已 经 在 z 中 的 实例 正确 地 分 类 。 如 果 一 个 实例 被 
错误 分 类 ， 则 将 它 添加 到 Zz 中 ; 如 果 它 被 正确 分 类 ， 则 z 不 变 。 应 当 扫描 数据 集 多 遍 ， 直 到 
没有 实例 再 添加 到 zZ 中 。 该 算法 进行 局 部 搜索 ,并且 依赖 于 看 到 训练 实例 的 次 序 ， 可 能 找 出 

















不 同 的 子 集 ， 每 个 子 集 在 确认 数据 上 具有 不 同 的 准确 率 。 因 此 ， 不 能 保证 找到 最 小 的 相 容 子 
集 。 找 出 最 小 相 容 子 集 是 NP- 完 全 问题 ( Wilfong 1992) 。 





z-o 

Repeat 

For BATH x eX( 以 随机 次 序 ) 

找 出 r' ez 使 得 1z -x' | = ming, |x-x || 
H class(x) A class(x') 将 x 添加 到 Z 中 
Until z 不 改变 











图 8-6 精简 的 最 近邻 算法 
精简 的 最 近邻 是 一 种 贪心 的 算法 ， 旨 在 最 小 化 训练 误差 和 用 存放 的 子 集 规模 度量 的 复杂 
度 。 我 们 可 以 写 一 个 增 广 的 误差 函数 
E'(Z|lx) = E(x|Z) +a |z| (8.18) 
其 中 E(X 1Z) 是 存放 Z 在 X 上 的 误差 。 | Z| 是 z 的 基数 ， 而 第 二 项 是 对 复杂 度 加 罚 。 与 所 有 的 
正则 化 方案 一 样 ，A 体现 误差 与 复杂 度 之 间 的 折 中 ， 使 得 对 于 较 小 的 A， 误差 变 得 更 重要 ， 
并 且 随 着 A 增 大 ， 对 复杂 的 模型 加 更 大 的 罚 。 尽 管 精简 的 最 近邻 是 一 种 最 小 化 (8. 18) 式 的 
方法 ， 但 是 还 可 以 设计 优化 它 的 其 他 算法 。 


8.6 非 参数 回归 : 光滑 模型 
在 回归 中 ， 给 定 训练 集 X = |x, r), Pr ER, RIBE 


r=g(x)+e 
在 参数 回归 ,我 们 假定 某 次 多 项 式 ， 并 计算 它 的 系数 ， 最 小 化 训练 集 上 误差 的 平方 和 。 
当 不 能 假定 这 种 多 项 式 时 ， 使 用 非 参数 回归 ; 我 们 只 假定 相近 的 x 具有 相近 的 g(x) 值 。 与 
非 参数 密度 估计 一 样 ， 给 定 *， 我 们 的 方法 是 找到 x 的 邻 域 ， 并 求 邻 域 中 7 的 平均 值 ， 计 算 
B(x) 。 非 参数 回归 估计 子 又 称 光滑 子 (smoother) ， 而 该 估计 称 作 光 滑 ( Hirdle 1990) 。 类 似 于 
密度 估计 ， 存 在 各 种 定义 邻 域 和 在 邻 域 中 取 平 均值 的 方法 。 我 们 对 一 元 变量 * 讨论 这 些 方 
法 ; 与 密度 估计 一 样 ， 使 用 多 元 核 函 数 ， 可 以 用 直截了当 的 方式 把 它们 推广 到 多 元 情况 中 。 


8.6.1 移动 均值 光滑 


如 果 我 们 像 在 直方 图 中 那样 ， 定 义 一 个 原点 和 箱 宽度 并 在 箱 中 求 r 的 平均 值 ， 则 我 们 得 
到 回归 图 (regressogram) (参见 图 8-7) 。 
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图 8-7 各 种 箱 长 度 的 回归 图 。”" x ”表示 数据 点 


x 
Der 


(8); = aa (8.19) 


Mio 


1 如 果 x' 与 x 在 同一 个 箱 中 
0 否则 

由 于 需要 固定 原点 ， 箱 边界 上 的 不 连续 是 令 人 烦恼 的 。 像 质朴 估计 一 样 ， 在 移动 均值 光 
滑 (running mean smoother) 中 ， 我 们 在 * 周围 定义 一 个 对 称 的 箱 并 在 那里 取 平均 值 (图 8-8) 。 


其 中 
b(x,2') = { 














4j 移动 均值 光滑 : 106 
2 T R t ^ 
a EO RENE Im I 
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图 8-8 各 种 箱 长 度 的 移动 均值 光滑 
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(8.20) 





其 中 
1 如 果 |u| < 1 
0 否则 


这 种 方法 在 平滑 分 段 数据 (例如 时 间 序 列 ) 方 面 特别 流行 。 在 有 噪声 的 应 用 中 ， 我 们 可 
以 使 用 箱 中 的 中 位 数 ， 而 不 是 它们 的 均值 。 


w(u) = 


8.6.2 核 光滑 


与 核 估计 一 样 ， 我 们 可 以 使 用 赋予 较 远 的 点 较 小 权重 的 核 函 数 ， 并 且 得 到 核 光滑 
(kernel smoother) ( 见 图 8-9) : 





Xs) 
a(i“ 


通常 使 用 高 斯 核 K() 。 替 换 固定 h， 我 们 可 以 固定 近邻 数 k， 使 得 估计 自动 适应 x 周围 
的 密度 ， 并 且 得 到 k-nn 光滑 (k-nn smoother) 。 


lla) = (8.21) 
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图 8-9 各 种 箱 长 度 的 核 光滑 
8. 6.3 移动 线 光滑 


替代 在 点 上 取 平均 值 和 提供 常量 拟 合 ， 我 们 可 以 对 泰勒 展开 式 多 考虑 一 项 并 计算 直线 拟 
合 。 在 移动 线 光 滑 (running line smoother) 中 ， 我 们 可 以 使 用 邻 域 ( 被 A 或 定义 ) 中 的 数据 
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点 ， 并 拟 合 一 个 局 部 回归 ( 见 图 8-10) 。 
^ 移动 线 光 清 : 16 














图 8-10 各 种 箱 长 度 的 移动 线 光滑 


在 局 部 加 权 移动 线 光滑 (locally weighted running line smoother， 称 作 loesse ) 中 ， 我 们 使 
用 核 加 权 使 得 较 远 的 点 对 误差 具有 较 小 影响 ， 而 不 是 使 用 邻 域 的 伪 硬 定义 。 


8.7 如何 选择 光滑 参数 


在 非 参 数 方法 中 ， 对 于 密度 估计 或 回归 ， 关 键 的 参数 是 光滑 参数 ， 如 箱 宽 度 或 核 扩展 中 
的 h， 或 近邻 数 k。 目 标 是 使 得 估计 的 不 稳定 性 比 数据 点 小 。 正 如 我 们 在 前 面 已 经 讨论 的 ， 
数据 中 的 易 变 性 的 一 个 根源 是 噪声 ， 其 他 根源 是 未 知 的 潜在 函数 。 我 们 应 当 光 滑 得 恰好 足以 
克服 噪声 一 一 不 少 也 不 多 。 使 用 太 大 的 或 &， 许 多 实例 都 对 点 上 的 估计 做 出 了 贡献 ， 我 们 
也 光滑 掉 了 源 于 函数 的 变化 ， 存 在 过 分 光滑 。 使 用 太 小 的 h 或， 单个 实例 具有 很 大 影响 ， 
我 们 甚至 没有 光滑 掉 噪声 ， 存 在 光滑 不 足 。 换 句 话 说 ， 小 h 或 导致 小 偏 倚 但 大 方差 。 大 上 
或 上 降低 方差 但 增加 偏 位。Geman 、Bienenstock 和 Doursat(1992) 讨 论 了 非 参 数 估计 的 偏 倚 和 
方差 。 

这 一 要 求 明确 地 表示 在 正如 光滑 样 条 (smoothing splines) 中 所 使 用 的 正则 化 函数 中 


Ele -eT + af Les Pas (8.22) 


第 一 项 是 拟 合 的 误差 。[a，b] 是 输入 区 间 ; 8"(*) 是 估计 函数 8(*) 的 曲率 (curvature)， 
因此 度量 变化 。 这 样 ， 第 二 项 处 罚 快 速 变 化 的 估计 。A 权衡 变化 和 误差 。 例 如 ， 使 用 大 入， 
我 们 得 到 更 光滑 的 估计 。 

交叉 确认 用 来 调整 4h, 或。 在 密度 估计 中 ， 我 们 选择 最 大 化 确认 集 上 似 然 的 参数 值 。 
在 监督 环境 下 ， 在 训练 集 上 试验 一 系列 候选 ， 选 取 最 小 化 确认 集 上 误差 的 参数 值 。 


© loes 意 为 局 部 回归 。 一 一 译 者 注 
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8.8 注释 


-最 近邻 和 基于 核 的 估计 早 在 SO 年 前 就 已 提出 了 ， 但 是 由 于 需要 大 量 存储 和 计算 X 
方法 直到 最 近 才 流行 (Aha、Kibler 和 Albert 1991) 。 随 着 并 行 处 理 的 进展 ， 存 储 和 计算 价格 
逐渐 降低 ， 这 些 方法 近来 得 到 了 更 加 广泛 的 使 用 。 非 参数 估计 方面 的 教科 书 是 Silverman 
1986 和 Scott 1992, Dasarathy 1991 收集 了 许多 关于 k- nn 和 编辑 /精简 规则 的 文章 。Aha 1997 
是 更 加 近期 的 工作 的 汇集 。 

非 参数 方法 非常 容易 在 单 指令 多 数据 (SIMD ) 机 器 上 并 行 ; 每 个 处 理 器 在 其 局 部 存储 器 
中 存放 一 个 实例 ， 而 且 并 行 地 对 该 实例 计算 核 函 数值 ( Stanfill 和 Waltz 1986) 。 乘 以 核 函 数 可 
以 看 作 卷 积 ， 并 且 我 们 可 以 使 用 傅立叶 变换 更 有 效 地 计算 估计 (Silverman 1986) 。 已 经 证 明 
样 条 光滑 等 价 于 核 光 滑 。 

非 参 数 估计 最 重要 的 因素 是 所 使 用 的 距离 度量 。 对 于 离散 属性 ， 我 们 可 以 简单 地 使 用 汉 
明 距离 ， 那 里 我 们 只 是 累计 非 匹配 的 属性 数 。 更 复杂 的 距离 函数 在 Wettschereck Aha 和 
Mohri 1997 以 及 Webb 1999 中 被 讨论 。 

在 人 工 智能 中 ， 非 参数 方法 称 作 基 于 案例 的 推理 ( case-based reasoning) 。 通 过 对 已 知 的 
类 似 旧 “案例 ”插值 找到 输出 。 这 也 允许 知识 提取 : 给 定 的 输出 可 以 用 列举 这 些 类 似 的 旧 
案例 证 明 其 合理 性 。 

由 于 其 简单 性 ，k-nn 是 最 广泛 使 用 的 非 参数 分 类 方法 ， 并 且 在 各 种 实践 应 用 中 相当 
成 功 。 已 经 证 明 ( Cover 和 Hart 1967; 又 见 Duda, Hart 和 Stork 2001) : 在 大 样本 中 ， 当 
N 一 wm 时 ,最 近邻 (k=1) 的 风险 不 超过 贝 叶 斯 风险 (我 们 能 够 得 到 的 最 好 结果 ) 的 两 倍 ， 
并 且 从 这 方面 来 讲 ， 可 以 说 “在 被 分 类 的 无 限 祥 本 集中 ,一般 的 可 用 信息 包含 在 最 近邻 
"P" (Cover 和 Hart 1967) 。 对 于 k-nn， 业 已 证 明 ， 随 着 趋向 于 无 穷 大 ， 其 风险 双 近 贝 叶 斯 
风险 。 

非 参数 回归 在 Hardle 1990 中 详细 讨论 。Hastie 和 Tibshirani (1990) 讨论 了 光滑 模型 并 提 
出 了 加 法 模型 (additive model) ， 其 中 多 元 函数 被 表示 成 一 元 估计 的 和 。 局 部 加 权 回 归 在 
Atkeson, Moore 和 Schaal 1997 中 讨论 。 这 些 模型 与 我 们 将 在 第 12 章 讨论 的 径 向 基 函 数 和 混 
合 专家 模型 很 相似 。 


8.9 习题 





1. 证 明 (8.17) 式 。 

2. WR >>1， 精 简 最 近邻 会 怎么 样 ? 

3. 在 回归 图 中 ， 替 代 箱 中 取 平 均值 并 做 常量 拟 合 ， 我 们 可 以 使 用 落 入 箱 中 的 实例 并 做 线性 
拟 合 ( 见 图 8-11) 。 写 出 代码 并 与 回归 图 做 适当 比较 。 

4. 为 8.6.3 节 讨 论 的 loess 写 出 误差 函数 。 

5. 提出 一 个 移动 均值 估计 的 增 量 版 本 ， 像 精简 最 近邻 一 样 ， 它 只 在 必要 时 存放 实例 。 

6. 将 核 光 滑 推广 到 多 元 数据 。 
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回归 图 线 光滑 : 776 
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图 8-11 对 于 各 种 箱 长 度 ， 使 用 线性 拟 合 的 回归 图 
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$952 RAR 树 


决策 树 是 一 种 实现 分 治 策略 的 层次 数据 结构 。 它 是 一 种 有 效 的 非 参数 学 习 方 法 ， 可 以 用 
于 分 类 和 回归 。 本 章 ， 我 们 讨论 由 给 定 的 标记 的 训练 样本 构造 决策 树 的 学 习 算法 ， 以 及 如 何 
将 决策 树 转换 成 容易 理解 的 简单 规则 的 方法 。 


9.1 引言 


对 于 参数 估计 ， 我 们 定义 整个 输入 空间 上 的 模型 ， 并 使 用 所 有 的 训练 数据 学 习 它 的 参 
数 。 然 后 ， 对 任意 的 检验 输入 ， 使 用 相同 的 模型 和 参数 。 对 于 非 参数 估计 ， 我 们 把 输入 
空间 划分 成 被 诸如 欧 几 里 德 范 数 这 样 的 距离 度量 定义 的 局 部 区 域 ， 并 对 每 个 输入 使 用 由 
该 区 域 的 训练 数据 计算 得 到 的 对 应 的 局 部 模型 。 在 非 参数 模型 中 ， 给 定 一 个 输入 ， 识 别 
定义 局 部 模型 的 局 部 数据 的 开销 很 大 ， 需 要 计算 从 给 定 的 输入 到 所 有 训练 实例 的 距离 。 
其 计算 复杂 度 为 O( N) 。 

决策 树 ( decision tree) 是 一 种 用 于 监督 学 习 的 层次 模型 ， 由 此 ， 局 部 区 域 通过 少数 几 步 
递归 分 裂 确定 。 决 策 树 由 一 些 内 部 决策 节点 和 终端 树叶 组 成 (参见 图 9-1)。 每 个 决策 节点 
(decision node) m 实现 一 个 具有 离散 输出 的 测试 函数 f.(x) ， 标 记分 支 。 给 定 一 个 输入 ， 在 
每 个 节点 应 用 一 个 测试 ， 并 根据 测试 的 输出 确定 一 个 分 支 。 这 一 过 程 从 根 节点 开始 ， 并 递归 
地 重复 ， 直 至 到 达 一 个 树叶 节点 (leaf node) 。 这 时 ， 该 树叶 中 的 值 形成 输出 。 








图 9-1 数据 集 和 对 应 的 决策 树 。 椭 贺 形 节点 是 决策 节点 ， 而 矩形 节点 是 树叶 
节点 。 单 变量 的 决策 节点 沿 着 一 个 轴 划 分 ,并且 相继 的 划分 相互 正 交 。 
第 一 次 划分 之 后 ，|x | x, 二 wl 已 是 纯 的 ， 因 此 不 需要 再 划分 


每 个 (x) 定 义 了 一 个 d- 维 输入 空间 中 的 判别 式 ， 将 空间 划分 成 较 小 区 域 。 在 从 根 节点 




















175 








114 RIX 





沿 一 条 路 径 向 下 时 ， 这 些 较 小 的 区 域 被 进一步 划分 。 太 (.) 是 一 个 简单 函数 ， 而 作为 树 写 下 
时 ,复杂 的 函数 被 分 解 成 一 系列 简单 决策 。 不 同 的 决策 树 方 法 对 f.(*) 假设 不 同 的 模型 ， 而 
模型 类 确定 了 判别 式 的 形状 和 区 域 的 形状 。 每 个 树叶 节点 有 一 个 输出 标号 。 对 于 分 类 ， 该 标 
号 是 类 代码 ; 而 对 于 回归 ， 它 是 一 个 数值 。 一 个 树叶 节点 定义 了 输入 空间 的 一 个 局 部 区 域 ， 
落 人 该 区 域 的 实例 具有 相同 的 输出 。 区 域 的 边界 被 从 树 根 到 该 树叶 的 路 径 上 的 内 部 节点 中 的 
判别 式 定义 。 

决策 的 层次 安排 使 得 涵盖 输入 的 区 域 可 以 快速 确定 。 例 如 ， 如 果 决 策 是 二 元 的 ， 则 在 最 
好 情况 下 每 个 决策 去 掉 一 半 实 例 。 如 果 有 6 个 区 域 ， 则 在 最 好 情况 下 可 以 通过 log, b 次 决策 
找到 正确 的 区 域 。 决 策 树 的 另 一 个 优点 是 可 解释 性 : 正如 稍 后 我 们 将 看 到 的 ， 可 以 把 决策 树 
转换 成 一 组 容易 理解 的 IF- THEN 规则 。 因 此 ， 决 策 树 非常 流行 ， 并 且 常 常 比 更 准确 但 是 不 
太 好 解释 的 方法 更 可 取 。 

我 们 从 一 个 决策 节点 只 使 用 一 个 输入 变量 的 单 变量 树 开始 ， 考 察 如 何 为 分 类 和 回归 构造 
这 样 的 树 。 稍 后 ， 我 们 将 这 种 方法 推广 到 一 个 内 部 节点 可 以 使 用 所 有 输入 的 多 变量 树 。 


9.2 单 变量 树 


在 单 变量 树 (univariate tree) 中 ， 每 个 内 部 节点 中 的 测试 只 使 用 一 个 输入 维 。 如 果 所 使 用 
的 输入 维 x, 是 离散 的 ， 取 n 个 可 能 的 值 之 一 ， 则 该 决策 节点 检查 x, 的 值 ， 并 取 相 应 的 分 支 ， 
实现 一 个 n 路 划分 。 例 如 ， 如 果 属 性 是 颜色 ， 具 有 可 能 的 值 | 红 ， 蓝 ， 绿 } ， 则 该 属性 上 的 
节点 具有 三 个 分 支 ， 每 个 对 应 该 属性 的 三 个 可 能 值 中 的 一 个 。 

决策 节点 具有 离散 分 支 ， 而 数值 输入 应 当 离 散 化 。 如 果 x 是 数值 的 (有 序 的 ) ， 则 测试 
是 比较 

fex) ix 2 was (9.1) 
其 中 ws EMER, UC ORE A IS SL, = [x | 2) > wo | ALR, = 
Ix |a, wal s 称 作 一 个 二 元 划分 (binary split) 。 从 根 到 一 个 树叶 的 路 径 上 的 相继 决策 节点 
使 用 其 他 属性 进一步 把 它们 一 分 为 二 ， 产 生 相 互 正 交 的 划分 。 树 叶 节点 定义 输入 空间 中 的 超 
矩形 (参见 图 9-1) 。 

树 归纳 是 构造 给 定 训练 样本 的 树 。 对 于 给 定 的 训练 集 ， 存 在 许多 对 它 进行 无 错 编码 的 
树 ， 而 为 了 简单 起 见 ， 我 们 感 兴趣 的 是 寻找 其 中 最 小 的 树 ， 这 里 树 的 大 小 用 树 中 的 节点 数 和 
决策 节点 的 复杂 性 度量 。 寻 找 最 小 树 是 NP- 完 全 的 ( Quinlan 1986) ， 而 我 们 必须 使 用 基于 启 
发 式 的 局 部 搜索 过 程 ， 在 合理 的 时 间 内 得 到 合理 的 树 。 

树 学 习 算法 是 贪心 算法 ， 从 包含 全 部 训练 数据 的 根 开始 ， 每 一 步 都 选择 最 佳 划 分 。 依 赖 
于 所 选取 的 属性 是 数值 属性 还 是 离散 属性 ， 每 次 将 数据 划分 成 两 个 或 个子 集 。 然 后 使 用 对 
应 的 子 集 递归 地 进行 划分 ， 直 到 不 再 需要 划分 。 此 时 ， 创 建 一 个 树叶 节点 并 标记 它 。 


9.2.1 分 类 树 


在 用 于 分 类 的 决策 树 ， 即 分 类 树 classification tree) 中 ， 划 分 的 优 劣 用 不 纯 性 度量 (impu- 
rity measure) 定 量 分 析 。 一 个 划分 是 纯 的 ， 如 果 对 于 所 有 分 支 ， 划 分 后 选择 相同 分 支 的 所 有 
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实例 都 属于 相同 的 类 。 对 于 节点 m, SN, 为 到 达 节点 m 的 训练 实例 数 。 对 于 根 节点 ，N。 
BN. Na 个 实例 中 N 个 属于 C, 类, TY N = N-。 如 果 一 个 实例 到 达 节 点 m, 则 它 属于 
C, 类 的 概率 估计 为 


PCC, | xm) = p, * x^ (9.2) 


节点 严 是 纯 的 ， 如 果 对 于 所 有 的 让， pL 为 0 或 1。 当 到 达 节 点 m 的 所 有 实例 都 不 属于 C, 
KN, p. 为 0， 而 当 到 达 节 点 m 的 所 有 实例 都 属于 C, X, pi 1, 如 果 划 分 是 纯 的 ， 则 
我 们 不 需要 进一步 划分 ， 并 可 以 添加 一 个 树叶 节点 ， 用 疏 为 1 的 类 标记 。 一 种 度量 不 纯 性 
的 可 能 函数 是 炉 函 数 (entropy) (Quinlan 1986) (参见 图 9-2) 。 

1 
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log, (p)- (1-p) “log, (1-p) 
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5 01 


tropy--, 
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0 01 02 03 04 os 06 07 08 09 1| 
图 9-2 2S [5] IE GO A i C 


In =- à log, p, (9.3) 
其 中 0 log 0 = 0。 在 信息 论 中 ， 炉 是 对 一 个 实例 的 类 代码 进行 编码 所 需要 的 最 少 位 数 。 对 于 
两 类 问题 ， 如果 p' =1 而 p? =0， 则 所 有 的 实例 都 属于 C 类 ， 并 且 我 们 什么 也 不 需要 发 送 ， 
MHO, WMR p' =p =0.5， 则 我 们 需要 发 送 一 位 通告 两 种 情况 之 一 ， 并 且 粹 为 1。 在 这 两 个 
极端 之 间 ， 我 们 可 以 设计 编码 ， 更 可 能 的 类 用 较 短 的 编码 更 不 可 能 的 类 用 较 长 的 编码 ， 每 
个 信息 使 用 不 足 一 位 。 当 存在 K> 2 个 类 时 ， 相 同 的 讨论 成 立 ， 并 且 当 p' = 1/K BER 
log, Ko 
(EE, MJEdEJEE — OT fe (0 HEH. EP HK Pa), JE p =p, ph =1 -p. BK o(p, 


1 -p) 是 非 负 函 数 ， HEBEL AE UC HE E, dn RM JR DC HE BE ( Devroye, Gyór 和 Lugosi 
1996) ; 


= 对 于 任意 pe [0, 1], $(1/2, 12? 26(p, 1-p). 

= $(0, 1) =(1, 0) =0。 

= 4p tel0, 1/2] Lat o(p, 1 -P) 是 递增 的 ， 而 当 p 在 [1/2，1] 上 时 (p, 1 -P) 是 
递减 的 。 
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中 (P,1 -p) --plog, p - (1 - p)log,(1 - p) (9.4) 
(9.3) RÆ K 22 个 类 的 推广 。 
2. Gini 指数 ( Gini index) ( Breiman 等 1984) 
由 (P,1 - p) = 2p(1- p) (9.5) 
3. 误 分 类 误差 
中 (P,1 -p) =1-max(p,l - p) (9.6) 
这 些 都 可 以 推广 到 K>2 类 ， 并 且 给 定 损失 函数 ， 误 分 类 误差 可 以 推广 到 最 小 风险 ( 习 
题 1) 。 研 究 表明 ， 这 三 个 度量 之 间 并 不 存在 显著 差别 。 
如 果 节点 m 不 是 纯 的 ， 则 应 当 划 分 实例 ， 降 低 不 纯度 ， 并 且 有 多 个 属性 可 以 用 于 划分 。 
对 于 数值 属性 ， 可 能 存在 多 个 划分 位 置 。 在 这 些 可 能 的 划分 中 ,我 们 寻找 最 小 化 划分 后 的 不 
纯度 的 划分 ， 因 为 我 们 希望 产生 最 小 的 树 。 划 分 后 的 子 集 越 纯 ， 则 其 后 需要 的 划分 (如 果 需 
要 的 话 ) 就 越 少 。 当 然 ， 这 是 局 部 最 优 ， 并 且 不 能 保证 找到 最 小 的 决策 树 。 
设 在 节点 m，N, 个 实例 中 Nw 个 取 分 支 j; 这 些 是 测试 f(x') 返 回 输出 j 的 x 。 对 于 具 
有 nn 个 值 的 离散 属性 ， 有 n 个 输出 ; 而 对 于 数值 属性 ， 有 两 个 输出 (n=2)。 在 两 种 情况 


下 ， 都 满足 Ny = Ns。 Ns 个 实例 中 的 NABER CSNY = Nus HR. Y, N = 
Nio 
Jb, MEW Am. WINEM j, X C, 的 概率 估计 为 


$ Ni 

PCC, | x, m4) = p = 大 (9.7) 
而 划分 后 的 总 不 纯度 为 

1.-- Y wis. lon p. (9.8) 


对 于 数值 属性 ， 为 了 能 够 使 用 (9. 1) 式 计算 pw， 我 们 还 需要 知道 该 节点 的 woo E Nn 
个 数据 点 之 间 ， 存 在 N。 - 1 个 可 能 的 w。: 我 们 不 需要 测试 所 有 (无 限 多 个 ) 可 能 的 点 ; A 
如 ， 我 们 只 需要 考虑 两 点 之 间 的 中 值 就 足够 了 。 还 要 注意 ， 最 佳 划分 总 是 在 属于 不 同类 的 两 
个 相 邻 点 之 间 。 这 样 ， 我 们 检查 每 一 个 ， 并 取 最 高 纯度 作为 该 属性 的 纯度 。 对 于 离散 属性 ， 
不 需要 这 种 迭代 。 

对 于 所 有 的 离散 属性 和 数值 属性 ， 对 于 数值 属性 的 所 有 可 能 划分 位 置 ， 我 们 计算 不 纯 
BE, AERA A RD RIE, (linde (9.8) 式 中 度量 的 。 于 是 ， 对 于 所 有 的 不 纯 
的 分 支 ， 树 构造 递归 地 、 平 行 地 继续 进行 ， 直 到 所 有 的 分 支 都 是 纯 的 。 这 就 是 分 类 与 回归 树 
(classification and regression trees，CART) 算 法 (Breiman 等 ，1984) 、ID3 算法 (Quinlan 1986) 
和 它 的 扩展 C4.5( Quinlan 1993) 的 基本 思想 。 算 法 的 伪 代 码 在 图 9-3 中 。 








Generate Tree(X) 

If NodeEntropy(x)<0,/ + (9.3) 式 */ 
创建 一 个 树叶 ， 用 X 中 的 多 数 类 标记 
Retum 

i«- SplitAttribute(X) 

For x, 的 每 个 分 支 
找 出 落 人 该 分 支 的 Xi 
Generate Tree(X,) 


SplitAttribute(x) 
MinEnt 一 MAX 
For 所 有 的 属性 1=1，…，d 
M x, 是 具有 个 值 的 离散 属性 
HM x, HERI, X, 
ec SplitEntropy(X, , =, X,)/# (9.8) 式 */ 
H e< MinEnt MinEnte-e; bestfe-i 
Else / + x, 是 数值 的 * / 
For 所 有 可 能 的 划分 
在 上 将 X 划 分成， X 
e*- SplitEntropy Qt, , X2) 
If e< MinEnt MinEnt—e; bestf—i 
Return bestf 














图 9-3 构造 分 类 树 


也 可 以 说 ， 在 树 构造 的 每 一 步 ， 我 们 选择 导致 不 纯度 降低 最 多 的 划分 。 不 纯度 的 降低 是 
到 达 节 点 m 的 数据 的 不 纯度 (9. 3 式 ) 与 划分 后 到 达 其 分 支 的 数据 的 总 炉 (9. 8 式 ) 之 差 。 

一 个 问题 是 这 种 划分 偏向 于 选择 具有 许多 值 的 属性 。 当 存在 许多 值 时 ， 就 存在 许多 分 
支 ， 并 且 不 纯度 可 能 很 小 。 例 如 ， 如 果 我 们 取 训 练 样本 的 编号 作为 一 个 属性 ， 尽 管 它 不 是 一 
个 合理 的 特征 ， 但 是 不 纯度 度量 将 会 选取 它 ， 因 为 这 样 的 话 ， 每 个 分 支 的 不 纯度 都 为 0。 具 
有 许多 分 支 的 节点 是 复杂 的 ， 并 且 背 离 把 类 判别 式 划 分 成 简单 决策 的 思想 。 已 经 提出 了 许多 
方法 对 这 样 的 属性 加 罚 ， 并 权衡 不 纯度 下 降 和 分 支 因 子 两 个 因素 。 

当 存 在 噪声 时 ， 增 长 树 直到 最 纯 可 能 产生 一 棵 非常 大 的 、 过 分 拟 合 的 树 。 例 如 ， 假 设 这 
种 情况 : 一 个 错误 标记 的 实例 混杂 在 一 组 正确 标记 的 实例 之 中 。 为 了 减轻 这 种 过 分 拟 合 ， 当 
节点 变 得 足够 纯 时 ， 树 构造 将 终止 ; 即 ， 如 果 1< 9,， 则 数据 子 集 就 不 再 划分 。 这 意味 不 需 
要 使 pw 都 恰 为 0 或 1， 而 只 需要 按照 某 个 阔 值 9,，p% 足 够 接近 0 或 1。 在 这 种 情况 下 ， 创 建 
一 个 树叶 节点 ， 并 将 它 标记 为 具有 最 大 pw 值 的 类 。 

9,( 或 9,) 是 复杂 度 参 数 ， 与 非 参 数 估 计 中 的 或 一 样 。 当 它们 较 小 时 ,方差 大 并 且 树 
增长 较 大 ， 以 正确 反映 训练 集 ; 而 当 它 们 较 大 时 ， 方差 小 并 且 树 较 小 ， 粗 略 地 表示 训练 集 并 
且 可 能 具有 较 大 偏 倚 。 理 想 的 值 依赖 于 误 分 类 的 代价 以 及 存储 和 计算 开销 。 

一 般 地 ， 建 议 在 树叶 节点 存放 属于 每 个 类 的 后 验 概率 ， 而 不 是 用 具有 最 大 后 验 概率 的 类 
来 标记 树叶 。 这 些 概率 在 其 后 的 步骤 中 可 能 是 需要 的 。 例 如 ， 在 计算 风险 时 可 能 需要 。 注 
意 ， 我 们 不 需要 存放 到 达 节点 的 实例 或 准确 计数 ;比率 就 足够 了 。 
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9.2.2 回归 树 


回归 树 (regression tree) 可 以 用 几乎 与 分 类 树 完全 相同 的 方法 构造 ， 唯 一 的 不 同 是 适合 分 
类 的 不 纯 性 度量 用 适合 回归 的 不 纯 性 度量 取代 。 对 于 节点 m, e XL OS X 中 到 达 节 点 m 的 子 
集 ， 即 它 是 x eX 的 满足 从 树 根 到 节点 m 的 所 有 决策 节点 条 件 的 所 有 *。 我 们 定义 


nofi 如 果 x eX。: x BRR m (9) 
0 Sa 
在 回归 树 中 ， 划 分 的 好 坏 用 估计 值 的 均 方 误差 度量 。 令 g。 为 节点 m 中 的 估计 值 。 

E, ED C ~ en) b(2') (9.10) 


sen, = [Xa | = Y, bu. 

在 节点 中 ， 我 们 使 用 到 达 该 节点 的 实例 要 求 的 输出 的 均值 (如 果 噪 声 太 大 用 中 值 ) 

Ebar 

TUS GN 

于 是 ，(9. 10) 式 对 应 于 m 上 的 方差 。 如 果 在 一 个 节点 上 ， 误 差 是 可 以 接受 的 ， 即 E, 一 
9,， 则 创建 一 个 树叶 节点 ， 存 放 g。 值 。 与 第 8 章 的 回归 图 一 样 ， 这 会 创建 在 叶 边界 不 连续 
的 分 段 常 量 近似 。 

如 果 误 差 不 能 接受 ， 则 到 达 节 点 m 的 数据 进一步 划分 ， 使 得 诸 分 支 的 误差 和 最 小 。 与 


分 类 一 样 ， 在 每 个 节点 上 ， 我 们 寻找 最 小 化 误差 的 属性 ( 和 数值 属性 的 划分 阔 值 ) ， 然 后 弟 
归 地 进行 上 述 过 程 。 


4X2 X, 的 取 分 支 了 的 子 集 ; UX =X-。 我 们 定义 
如 果 x eXw: x HKSAR m 并 取 分 支 J 


fa (9.11) 


1 

by (x) = (9.12) 

he i 否则 

gw 是 到 达 节 点 m 的 分 支 了 的 估计 值 。 
EB bx )r 
Ew = Toe) (9. 13) 
而 划分 后 的 误差 为 

B= Dr abun (9.14) 


对 于 任意 划分 ， 误 差 的 减少 由 (9. 10) 和 (9. 14) 式 之 差 给 出 。 我 们 寻找 这 样 的 划分 ， 它 
最 大 化 误差 的 减少 ， 或 等 价 地 ，(9. 14) 式 取 最 小 值 。 将 炉 计 算 用 均 方 误差 奉 换 ， 类 标号 用 
平均 值 替换 ， 图 9-3 的 程序 代码 可 以 用 来 训练 回归 树 。 
均 误 方差 是 一 种 可 能 的 误差 函数 ; 另 一 种 是 最 大 误差 
E, = max max |r" ~ gy |b (x°) (9.15) 
使 用 它 ， 我 们 可 以 保证 任意 实例 的 误差 都 不 大 于 给 定 的 阔 值 。 
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HY ESE RU R25 BICIS S2 Ze HE PO PR S 其 值 越 小 ， 产 生 的 树 越 大 并 且 过 分 拟 合 的 风险 越 
大 ; 其 值 越 大 ， 拟 合 不 足 和 过 分 光滑 的 可 能 性 越 大 (参见 图 9-4 和 图 9-5) 。 
a 8-05 


2 x 


























图 9-4 对 于 0, 的 不 同 值 ， 回 归 树 光滑 。 对 应 的 树 在 图 9-5 中 


类 似 于 非 参 数 回归 中 的 从 移动 均值 到 移动 直线 ， 我 们 不 是 在 实现 常量 拟 合 的 树叶 上 取 平 
均值 ， 而 是 可 以 做 线性 回归 拟 合 选 定 树 叶 上 的 实例 : 
g.(x) = WIX + wey (9.16) 
这 使 得 树叶 上 的 估计 依赖 于 x， 并 且 产 生 较 小 的 树 , 但 是 这 导致 树叶 节点 上 的 附加 的 计 
算 开销 。 


9.3 WR 


通常 ， 如 果 到 达 一 个 节点 的 训练 实例 数 小 于 训练 集 的 某 个 百分比 (如 5% ) ， 则 无 论 是 否 不 纯 
或 是 否 有 错误 ， 该 节点 都 不 进一步 分 裂 。 其 基本 思想 是 : 基于 过 少 实例 的 决策 树 导致 较 大 方差 ， 
从 而 导致 较 大 泛 化 误差 。 在 树 完全 构造 出 来 之 前 提前 停止 树 构造 称 作 树 的 先 剪 枝 (prepruning) o 

得 到 较 小 树 的 另 一 种 可 能 做 法 是 后 剪 枝 ( postpruning) ， 实 践 中 比 先 剪 枝 效果 更 好 。 前 
面 ， 我 们 看 到 树 的 增长 很 贪心 ， 在 每 一 步 ， 我 们 做 出 一 个 决策 ( 即 产 生 一 个 决策 节点 ) 并 继 
续 进 行 ， 绝 不 回溯 尝试 其 他 可 能 的 选择 。 唯 一 的 例外 是 后 剪 枝 ， 那 里 我 们 试图 找 出 并 剪 掉 不 
必要 的 子 树 。 

在 后 剪 枝 中 ， 我 们 让 树 完全 增长 直到 所 有 的 树叶 都 是 纯 的 并 具有 零 训 练 误差 。 然 后 ， 我 
们 找 出 导致 过 分 拟 合 的 子 树 并 剪 掉 它们 。 我 们 从 最 初 的 被 标记 的 数据 集中 保留 一 个 剪 枝 集 
(pruning set) ， 在 训练 阶段 不 使 用 。 对 于 每 棵 子 树 ， 我 们 用 一 个 被 该 子 树 覆 盖 的 训练 实例 标 
记 的 树叶 节点 替换 它 。 如 果 该 树叶 在 剪 枝 集 上 的 性 能 不 比 该 子 树 差 ， 则 剪 掉 该 子 树 并 保留 树 
叶 节点 ， 因 为 子 树 的 附加 的 复杂 性 是 不 必要 的 ; 否则 保留 子 树 。 
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图 9-5 对 于 9, 的 不 同 值 ， 实 现 图 9-4 的 光滑 的 回归 树 


例如 ， 在 图 9-5 的 第 三 棵 树 中 ， 有 一 个 从 条 件 x 一 6. 31 开始 的 子 树 。 如 果 替 换 不 增加 剪 
枝 集 上 的 误差 ， 则 该 子 树 可 以 用 树叶 节点 y 20.9 替换 (如 第 二 棵 树 ) 。 注 意 ， 不 要 把 剪 枝 集 
与 确认 集 混淆 ， 它 不 同 于 确认 集 。 

先 剪 枝 与 后 剪 枝 相 比 ， 先 剪 枝 较 快 ， 但 是 后 剪 枝 通常 导致 更 准确 的 树 。 


9.4 由 决策 树 提取 规则 


决策 树 能 够 提取 特征 。 单 变量 树 只 使 用 必要 的 变量 ， 并 且 在 树 构建 之 后 某 些 特征 可 能 根 
本 没有 使 用 。 我 们 还 可 以 认为 越 靠近 树 根 的 特征 从 全 局 上 讲 越 重要 。 例 如 ， 图 9-6 中 的 决策 
树 使 用 了 变量 x,, x, 和 x, ， 但 没有 使 用 x,。 可 以 使 用 决策 树 提取 特征 : 构建 一 棵 决策 树 ， 
并 取 该 树 使 用 的 特征 作为 男 一 种 学 习 方法 的 输入 。 

决策 树 的 另 一 优点 是 可 解释 性 (interpretability ) ; 决策 树 节点 中 的 条 件 简单 、 易 于 理解 。 
从 树 根 到 树叶 的 每 条 路 径 对 应 于 条 件 的 合 取 ， 这 是 因为 为 到 达 树 叶 ， 所 有 这 些 条 件 都 必须 满 
足 。 这 些 路 径 可 以 用 IF- THEN 规则 集 表示 ， 称 作 规 则 库 (rule base)。 一 种 这 样 的 方法 是 
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C4. 5 规则 ( Quinlan 1993) 。 





图 9-6 一 棵 (假想 的 ) 决 策 树 。 由 根 到 树叶 的 每 条 路 径 都 可 以 用 一 
个 合 取 规则 表示 ， 由 该 路 径 上 决策 节点 定义 的 条 件 组 成 


例如 ， 图 9-6 的 决策 树 可 以 用 如 下 规则 集 表示 : 

RI; IF(age> 38.5)AND(years-in-job >2.5)THEN y =0. 8 

R2; IF(age> 38.5)AND(years-in-job<2.5)THEN y=0.6 

R3; IF(age<38.5)AND(job-type = ‘A’)THEN y=0.4 

R4; IF(age<38.5)AND(job-type = 'B')THEN y =0. 3 

RS; IF(age<38.5)AND(job-type = ‘C’)THEN y=0.2 

这 样 的 规则 库 可 以 提取 知识 ; 它 容 易 理 解 ， 并 且 使 得 领域 专家 可 以 验证 从 数据 学 习 得 到 的 模 
型 。 对 于 每 个 规则 ， 我 们 可 以 计算 被 该 规则 覆盖 的 训练 数据 所 占 的 百分比 ， 即 规则 的 支持 度 ( rule 
support) 。 这 些 规则 反映 数据 集 的 主要 特性 : 它们 显示 了 重要 特征 和 划分 位 置 。 例 如 ， 在 这 个 ( 假 
想 的 ) 例 子 中 ,我 们 看 到 就 我 们 的 目的 (y) 而 言 ，38 岁 或 更 年 轻 的 人 不 同 于 39 岁 或 更 年 长 的 人 。 
并 且 ， 在 后 一 组 ， 工 作 类 型 区 分 他 们 ; 而 在 前 一 组 ， 做 一 项 工作 的 年 限 是 最 好 的 区 分 特征 。 

对 于 分 类 树 ， 可 能 有 多 个 树叶 被 标记 为 相同 的 类 。 在 这 种 情况 下 ， 对 应 不 同 路 径 的 多 个 
合 取 表 达 式 可 以 合并 成 一 个 析 取 (OR) 。 类 区 域 对 应 于 多 个 小 区 域 的 并 ， 而 每 个 小 区 域 对 应 
一 个 树叶 定义 的 区 域 。 例 如 ， 图 9-1 的 C, 类 可 以 表示 为 : 

IF(x < w,,) OR( (x, > wo) AND(x, < wy) ) THEN C, 

为 了 简化 ， 可 以 修剪 规则 (pruning rule) 。 前 掉 一 棵 子 树 对 应 同时 从 一 些 规则 剪 去 一 些 项 。 可 
以 从 一 个 规则 剪 去 一 个 项 而 不 涉及 其 他 规则 。 例 如 ， 在 前 面 的 规则 集中 ， 对 于 R3， 如 果 所 有 
job-type = “A' 的 人 无 论 他 的 年 龄 多 大 ， 都 具有 大 致 为 0.4 的 输出 ， 则 可 以 对 R3 剪 枝 ， 得 到 

R3':IF(job-type = ‘A’)THEN y = 0.4 
注意 ， 规 则 剪 枝 后 可 能 不 能 再 写 回 到 树 中 。 


9.5 由 数据 学 习 规则 


正如 我 们 刚刚 看 到 的 ， 产 生 IF- THEN 规则 的 一 种 方法 是 训练 一 棵 决策 树 ， 并 把 它 转换 
成 规则 。 另 一 种 方法 是 直接 学 习 规 则 。 规 则 归纳 (rule induction) 类 似 于 树 归纳 ， 唯 一 的 区 别 
在 于 规则 归纳 进行 深度 优先 搜索 ， 并 且 一 次 产生 一 条 路 径 (规则 ); 而 树 归纳 进行 宽度 优先 
搜索 ， 并 且 同 时 产生 所 有 路 径 。 

一 次 学 习 一 个 规则 。 每 个 规则 是 离散 或 数值 属性 上 条 件 的 合 取 (与 决策 树 一 样 )， 并 且 这 
些 条 件 一 次 添加 一 个 ， 以 优化 某 个 标准 ， 如 最 小 化 精 。 我 们 说 规则 禾 盖 (cover) 一 个 实例 ， 
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如 果 该 实例 满足 规则 的 所 有 条 件 。 一 旦 规则 形成 并 被 剪 枝 ， 就 将 它 添加 到 规则 库 中 ， 从 训练 集 
中 删除 被 它 覆 盖 的 所 有 训练 实例 ， 并 且 继续 该 过 程 ， 直 到 得 到 足够 的 规则 。 这 称 作 顺序 覆盖 
(sequential covering) 。 外 循环 一 次 将 一 个 规则 添加 到 规则 库 ， 而 内 循环 一 次 将 一 个 条 件 添加 到 当 
前 规则 中 。 这 些 步骤 都 是 贪心 的 ， 并 且 不 能 保证 最 优 。 为 了 更 好 地 泛 化 ， 两 个 循环 都 有 剪 枝 步 。 
规则 归纳 算法 的 一 个 例子 是 Ripper( Cohen 1995) ， 它 基于 较 早 的 算法 Irep( Fürnkrantz 和 
Widmer 1994) 。 我 们 从 两 类 问题 开始 ， 并 使 用 术语 正 例 和 负 例 ， 然 后 再 推广 到 K> 2 类 。 添 加 
规则 旨 在 解释 正 例 ， 使 得 如 果 一 个 实例 不 被 任何 规则 覆盖 ， 则 它 将 被 归 到 负 类 。 这 样 ， 当 规则 
匹配 时 ， 它 或 者 是 正确 的 (真正 ) ， 或 者 导致 一 个 假 正 。Ripper 的 外 循环 的 伪 代码 在 图 9-7 中 。 





Ripper( Pos, Neg, k) 
RuleSet«-LearnRuleSet( Pos, Neg) 
For k times 
RuleSet-- OptimizeRuleSet( RuleSet, Pos, Neg) 
LearnRuleSet( Pos, Neg) 
RuleSet--@ 
DL 一 DeseLen( RuleSet, Pos, Neg) 
Repeat 
Rules LearnRule(Pos, Neg) 
将 Rule 添加 到 RuleSet 
DL’ «Desclen(RuleSet, Pos, Neg) 
If DL? > DL +64 
PruneRuleSet( RuleSet, Pos, Neg) 
Return RuleSet 
If DL' <DL DL—-DL* 
从 Pos 和 Neg 删除 被 Rule Bd £4) W 
Until Pos = Ø 
Return RuleSet 
PruneRuleSet( RuleSet, Pos, Neg) 
For 每 个 Rule e RuleSet， 按 相反 次 序 
DL«-DescLen(RuleSet, Pos, Neg) 
DL’ «-DescLen( RuleSet-Rule, Pos, Neg) 
If DL" < DL 从 RuleSet 中 删除 Rule 
Return RuleSet 
OptimizeRuleSet( RuleSet, Pos, Neg) 
For 每 个 Rule e RuleSet 
DLO~DescLen( RuleSet, Pos, Neg) 
DLI +- DeseLen( RuleSet- Rule + 
ReplaceRule(RuleSet, Pos, Neg), Pos, Neg) 
DL2 —- DescLen( RuleSet- Rule + 
ReviseRule(RuleSet, Rule, Pos, Neg), Pos, Neg) 
If DLI = min( DIO, DLI, DI2) 
从 RuleSet 中 删除 Rule 并 且 
添加 ReplaceRule( RuleSet, Pos, Neg) 
Else If DI2 = min( DIO, DLI, DI2) 
从 RuleSet 中 删除 Rule 并 且 
添加 ReviseRule(RuleSet, Rule, Pos, Neg) 
Return RuleSet 











图 9-7 学 习 规则 的 Ripper 算法 。 只 给 出 了 外 循环 ， 内 循环 与 在 决策 树 中 添加 一 个 节点 类 似 
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在 Ripper 中 ， 条 件 被 添加 到 规则 中 ， 以 最 大 化 Quinlan 的 Foil 算法 (1990 ) 使 用 的 信息 增 
益 度 量 。 假 设 我 们 有 规则 R, 并且 R' 是 添加 一 个 条 件 后 的 候选 规则 。 增 益 的 改变 定义 为 


N' N 
Gain(R',R) = s- (Io 元 -log e) (9.17) 


其 中 入 是 被 R 覆 盖 的 实例 数 ， 而 NN, 是 其 中 的 真正 例 数 。 类 似 地 ，N' 是 被 R' 覆 盖 的 实例 数 ， 
N' 是 其 中 的 真正 例 数 。s 是 R 中 的 真正 例 并 且 增 加 条 件 之 后 在 R' 也 是 真正 实例 的 实例 数 。 
根据 信息 理论 ， 增 益 的 变化 度量 对 一 个 正 例 编码 所 需 位 的 减少 。 

向 规则 增加 条 件 直到 它 不 再 覆盖 负 例 。 一 旦 规则 形成 ， 就 以 相反 的 次 序 对 它 剪 枝 ， 以 便 
找到 最 大 化 规则 价值 度量 (rule value metric ) 的 规则 


rm(R) = 已 二 (9.18) 
ptn 


其 中 p Al n 分别 是 剪 枝 集中 的 真正 例 和 假 正 例 数 。 剪 枝 集 是 数据 的 三 分 之 一 ,已 经 使 用 三 分 
之 二 的 数据 作为 增长 集 。 

一 旦 规则 形成 并 被 剪 枝 ， 就 从 训练 集中 删除 被 规则 覆盖 的 所 有 正 的 和 负 的 训练 实例 。 如 
果 还 有 正 的 实例 ， 则 继续 进行 规则 归纳 。 在 存在 噪声 的 情况 下 ， 即 当 规 则 不 能 解释 足够 多 的 
实例 时 ， 我 们 可 能 提前 中 止 归纳 。 为 了 度量 规则 的 价值 ， 使 用 最 小 描述 长 度 (参见 4.8 节 ) 
(Quinlan 1995) 。 典 型 地 ， 如 果 规 则 的 描述 长 度 不 短 于 它 所 解释 的 实例 的 描述 长 度 ， 则 我 们 
停止 。 规 则 库 的 描述 长 度 是 规则 库 中 所 有 规则 的 描述 长 度 之 和 ， 加 上 不 被 规则 库 覆盖 的 实例 
的 描述 长 度 。 当 规则 的 描述 长 度 比 迄今 得 到 的 最 佳 描述 长 度 多 64 位 时 ，Ripper 停止 添加 规 
则 。 一 旦 学 到 了 规则 库 ， 我 们 就 以 逆序 忽略 规则 ， 看 是 否 能 够 删除 它们 而 不 增加 描述 长 度 。 

规则 库 中 的 规则 在 学 习 之 后 也 要 优化 。 对 一 个 规则 ，Ripper 考虑 两 种 可 供 选 择 的 方案 : 
一 种 是 置换 规则 ， 从 空 规则 开始 ， 增 长 然后 剪 枝 。 第 二 种 是 修订 规则 ， 从 规则 开始 ， 增 长 然 
后 剪 枝 。 这 两 个 规则 与 原 规则 比较 ， 并 将 三 个 中 的 最 短 者 添加 到 规则 库 中 。 规 则 库 的 这 种 优 
化 进行 次， 通常 进行 两 次 。 

当 存在 K>>2 个 类 时 ， 将 这 些 类 按照 它们 的 先 验 概率 排序 ， 使 得 C, 的 先 验 概率 最 低 ， 
C, 的 先 验 概率 最 高 。 然 后 定义 一 系列 两 类 问题 。 开 始 ， 属 于 C, 的 实例 为 正 例 ， 其 他 类 的 实 
例 都 是 负 例 。 学 习 C, 的 规则 后 ， 删 除 它 的 所 有 实例 ， 学 习 将 C, 与 C,，…，Cx 分 离开 来 。 
重复 该 过 程 ， 直 到 只 剩 下 Cx。 空 的 缺 省 规则 标记 为 C:， 使 得 如 果 一 个 实例 不 被 任何 规则 覆 
盖 ， 则 将 它 指派 到 Cro 

对 于 大 小 为 N 的 训练 集 ，Ripper 的 复杂 度 为 O(N log’ N) ， 并 且 可 以 用 于 很 大 的 训练 集 
(Dietterich 1997) 。 学 习 的 规则 是 命题 规则 (propositional rule) 。 更 准确 地 说 ， 是 条 件 中 包含 
变量 的 一 阶 规则 (first-order rule) ， 称 作 谓 词 ( predicate) 。 谓 词 是 一 个 函数 ， 依 赖 于 其 变 元 的 
值 ， 它 返回 真 或 假 。 因 此 ， 谓 词 可 以 定义 属性 值 之 间 的 关系 ， 而 命题 不 能 ( Mitehell 1997) ; 

IF Father(y,x) AND Female( y») THEN Daughter(x,y) 

在 逻辑 程序 设计 语言 (如 Prolog) 中 ， 这 种 规则 可 以 看 作 程序 ， 而 从 数据 中 学 习 它 们 称 作 
归纳 逻辑 程序 设计 (inductive logic programming) 。 一 种 这 样 的 算法 是 Foil( Quinlan 1990) 。 

将 一 个 值 指派 到 一 个 变量 称 作 绑 定 (binding) 。 如 果 训 练 集中 存在 到 变量 的 绑 定 集 ， 则 
称 规则 匹配 。 学 习 一 阶 规则 类 似 于 学 习 命题 规则 ， 外 循环 添加 规则 ， 而 内 循环 相 规则 添加 条 
件 ， 在 内 循环 结束 时 进行 规则 剪 枝 。 不 同 的 是 ， 在 内 循环 中 ， 每 一 步 我 们 考虑 增加 一 个 谓词 
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(而 不 是 命题 )， 并 检查 规则 的 性 能 提高 (Mitchell 1997) 。 为 了 评估 规则 的 性 能 ， 我 们 考虑 变 
量 的 所 有 可 能 绑 定 ， 对 训练 集中 正 的 和 负 的 绑 定 计 数 ， 并 使 用 ， 例 如 (9. 17) 式 。 在 学 习 一 
阶 规则 时 ， 我 们 使 用 谓词 而 不 是 命题 ， 因 此 这 些 谓词 应 当 事 先 定义 ， 并 且 训练 集 是 已 知 为 真 
的 谓词 集 。 


9.6 多 变量 树 


在 构造 单 变量 树 时 ， 划 分 时 只 使 用 一 个 输入 维 。 在 构造 多 变量 树 (multivariate tree) Bf , 
在 每 个 决策 节点 都 可 以 使 用 所 有 的 输入 维 ， 因 此 更 加 一 般 。 当 所 有 的 输入 都 是 数值 属性 时 ， 
二 元 线性 多 变量 节点 定义 为 
falx) :Wx + wo >0 (9.19) 
因为 线性 多 变量 节点 取 加 权 和 ， 因 此 离散 属性 应 当 用 0/1. 哑 数 值 变量 表示 。(9. 19) 式 
定义 了 一 个 具有 任意 方向 的 超 平面 (参见 图 9-8) 。 从 根 到 树叶 的 路 径 上 的 相继 节点 进一步 划 
分 实例 ， 而 叶 节 点 定义 输入 空间 上 的 多 面体 。 具 有 数值 特征 的 一 元 节点 是 一 种 特例 ， 所 有 的 
ww 除 一 个 之 外 均 为 0。 这 样 ，(9. 1) 式 的 单 变量 数值 节点 也 定义 了 一 个 线性 判别 式 ， 但 是 与 
HH x, EZF ww。， 与 其 他 轴 x, 平行 。 因 此 ， 我 们 看 到 在 单 变量 节点 有 d 个 可 能 的 方向 (w。) 
AUN, -1 个 可 能 的 阔 值 ( -w.。)， 使 得 穷 举 搜索 是 可 能 的 。 在 多 变量 节点 ， 有 2“Cx. 个 可 能 
的 超 平面 (Murthy Kasif 和 Salzberg 1994) ， 并 且 不 再 可 能 进行 穷 举 搜索 。 


E 





图 9-8 线性 多 变量 决策 树 。 线 性 多 变量 节点 可 以 安放 任意 超 平面 ， 
因而 更 一 般 ， 而 单 变量 节点 限于 平行 于 轴 的 划分 


当 我 们 从 单 变量 节点 过 渡 到 线性 多 变量 节点 时 ， 节 点 变 得 更 灵活 。 使 用 非 线 性 多 变量 节 
点 ， 还 可 以 更 加 灵活 。 例 如 ， 使 用 二 次 方程 ， 我 们 有 
falx): x Wax + wix + wi. >0 (9.20) 
Guo 和 Gelfand( 1992) 提出 使 用 多 层 感 知 器 (第 11 RE). BARRA BE ALAR R HEIE PR HB hy BR 
性 和 ， 是 另 一 种 产生 非 线 性 决策 节点 的 方法 。 还 一 种 可 能 性 是 使 用 球形 节点 (sphere node) 
(Devroye, Györfi 和 Lugosi 1996) 
fx): px-e.l <a, (9.21) 
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其 中 c, BRL, a, 是 半径 。 

已 经 提出 了 一 些 学 习 用 于 分 类 的 多 变量 决策 树 的 算法 : 最 早 的 算法 是 CART 算法 的 多 变 
量 版 本 ( Breiman 等 1984) ， 它 逐一 对 权重 w。 进 行 微调 来 降低 不 纯度 。CART 还 包含 一 个 预 
处 理 步骤 ， 通 过 子 集 选 择 降 低 维 度 (第 6 章 ) 并 降低 节点 的 复杂 度 。 一 种 对 CART 扩展 的 算法 
是 OCI 算法 (Murthy Kasif 和 Salzberg 1994) 。 一 种 可 能 的 方法 (Loh 和 Vanichsetakul 1988 ) 
是 假设 所 有 的 类 是 高 斯 的 ， 具 有 共同 的 协 方差 矩阵 ， 因 此 具有 分 离 每 个 类 的 线性 判别 式 ( 第 
5 章 )。 在 这 种 情况 下 ， 具 及 个 类 ， 每 个 节点 具 用 个 分 支 ， 而 每 个 分 支 携带 一 个 将 每 个 
类 与 其 他 类 分 开 的 线性 判别 式 。Brodley 和 Utgofi(1995 ) 提 出 了 一 种 方法 ， 这 种 方法 训练 线性 
判别 式 以 最 小 化 分 类 误差 (第 10 BE). Guo 和 Gelfand(1992) 提出 了 一 种 方法 ， 将 天 > 2 个 类 
划分 为 两 个 超群 ， 然 后 学 习 二 元 多 变量 树 。Loh 和 Shih ( 1997 ) 使 用 2- 均值 聚 类 (第 7 章 ) 将 
数据 聚 成 两 组 。 一 旦 类 聚 成 两 组 ，Yildiz 和 Alpaydın (2000) 就 使 用 LDA (第 6 章 ) 找 出 判 
别 式 。 

任何 分 类 器 都 近似 一 个 从 假设 类 中 选取 一 个 假设 的 实际 (未 知 的 ) 判 别 式 。 当 我 们 使 用 
单 变量 节点 时 ， 我们 的 近似 使 用 分 段 的、 平行 于 轴 的 超 平面 。 使 用 线性 多 变量 节点 ， 我 们 可 
以 使 用 任意 的 超 平面 ， 并 且 使 用 较 少 的 节点 得 到 更 好 的 近似 。 如 果 潜 在 的 判别 式 是 曲 的 ， 非 
线性 节点 更 好 。 分 支 因子 确定 节点 定义 的 判别 式 的 个 数 ， 具 有 类 似 效果 。 具 有 两 个 分 支 的 二 
元 决策 节点 定义 一 个 将 输入 空间 一 分 为 二 的 判别 式 。n- 路 节点 将 输入 空间 划分 成 n 部 分 。 这 
FÉ, 节点、 分 支 因 子 和 树 大 小 之 间 存 在 相关 性 。 使 用 简单 节点 和 较 低 的 分 支 因 子 可 以 得 到 一 
棵 大 树 。 但 是 ， 这 样 的 树 ( 如 具有 单 变量 二 元 节点 ) 可 解释 性 更 好 。 线 性 多 变量 节点 更 难 解 
释 。 更 复杂 的 节点 也 需要 更 多 的 数据 ， 并 且 随 着 我 们 沿 树 向 下 ， 数 据 越 来 越 少 ， 更 容易 过 分 

合 。 如 果 节 点 复杂 并 且 树 比较 小 ， 那 么 我 们 也 就 失去 了 通过 树 想 要 得 到 的 主要 东西 一 一 将 
问题 划分 成 一 系列 简单 问题 。 毕 竟 ， 我 们 可 以 在 根 节 点 具有 一 个 非常 复杂 的 分 类 器 ， 它 区 分 
所 有 的 类 ， 但 这 样 的 话 ， 这 就 不 是 一 棵 树 了 ! 


9.7 注释 


自从 凯撒 将 一 个 复杂 的 问题 (如 高 上 户 人 问题 ) 分 解 成 一 组 较 简单 的 问题 以 来 ， 分 治 一 直 
被 作为 一 种 启发 式 方法 频繁 使 用 。 在 计算 机 科学 中 ， 频 繁 地 使 用 树 将 复杂 度 从 线性 降低 到 对 
数 时 间 。Breiman 等 1984 使 得 决策 树 在 统计 学 流行 ，Quinlan 1986 、1993 使 得 决策 树 在 在 机 
器 学 习 中 很 流行 。 多 变量 树 归纳 方法 最 近 才 开始 流行 ，Yildiz 和 Alpaydın 2000 给 出 了 综述 和 
许多 数据 集 上 的 比较 。 许 多 研究 者 (如 Guo 和 Gelfand 1992) 将 树 的 简单 性 与 多 层 感 知 器 的 准 
确 性 结合 在 一 起 (第 11 章 )。 然 而 , 许多 研究 表明 单 变量 树 相 当 准 确 、 具 有 很 好 的 可 解释 
性 ， 并 且 线性 ( 非 线性 ) 多 变量 节点 带 来 的 附加 的 复杂 度 很 难 被 认为 是 合理 的 。 $ 

杂 变 量 决策 树 (omnivariate decision tree) ( Yıldız 和 Alpaydın 2001) 是 一 种 混合 树 结构 ， 其 
中 树 可 以 具有 单 变 量 、 线 性 多 变量 和 非 线性 多 变量 节点 。 其 基本 思想 是 在 树 构造 期 间 ， 每 个 
决策 节点 对 应 于 到 达 该 节点 的 训练 数据 子 集 定义 的 一 个 不 同 的 子 问题 ， 不 同 的 模型 可 能 更 合 
适 ， 应 当 找 出 和 使 用 合适 的 模型 。 到 处 都 用 相同 类 型 的 节点 相当 于 假定 输入 空间 的 所 有 部 分 
都 具有 相同 的 归纳 偏 倚 。 在 杂 变 量 树 中 ， 在 每 个 节点 ， 训 练 并 在 确认 集 上 使 用 统计 检验 (第 
14 3€) 比较 不 同类 型 的 候选 节点 ， 确 定 哪 一 个 泛 化 性 能 最 好 。 除 非 复杂 的 决策 节点 表现 出 显 
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著 较 高 的 准确 率 ， 否 则 就 选取 较 简单 的 候选 节点 。 结 果 表 明 ， 在 树 构造 的 早期 更 靠近 树 根 的 
地 方 使 用 较 复杂 的 节点 ， 并 且 随 着 我 们 沿 树 向 下 ， 简 单 的 单 变量 节点 就 足够 了 。 随 着 我 们 越 
来 越 靠近 树叶 ， 问 题 越 来 越 简单 ， 同 时 ， 数 据 越 来 越 少 。 在 这 种 情况 下 ， 复 杂 的 节点 过 分 拟 
合 ,并 且 被 统计 检验 拒绝 。 随 着 我 们 沿 树 向 下 ， 节 点 的 个 数 指数 增加 。 因 此 ， 大 部 分 节点 是 
单 变量 的 ， 并 且 总 体 复杂 度 增 加 不 太 多 。 
决策 树 更 多 地 用 于 分 类 而 不 是 回归 。 它 们 非常 流行 : 它们 的 学 习 和 响应 速度 都 很 快 ， 并 
且 在 许多 领域 都 很 准确 (Murthy 1998 ) 。 由 于 它们 的 可 解释 性 ， 甚 至 在 有 更 准确 的 方法 时 ， 
决策 树 仍 是 首选 。 当 决策 树 写成 IF- THEN 规则 集 时 ， 树 可 以 理解 ， 并 且 可 以 被 具有 应 用 领 
域 知识 的 专家 验证 。 
通常 ， 在 使 用 更 复杂 算法 之 前 ， 建 议 先 试验 决策 树 ， 并 将 它 的 准确 率 作为 性 能 基准 。 树 
分 析 还 能 帮助 我 们 理解 重要 特征 ， 单 变量 树 还 可 以 用 于 自动 特征 提取 。 单 变量 树 的 另 一 个 重 
要 优点 是 它 可 以 使 用 数值 和 离散 特征 ， 而 不 需要 将 一 种 类 型 转换 成 另 一 种 。 
决策 树 是 非 参数 方法 ， 类 似 于 第 8 章 讨论 的 方法 ， 但 是 存在 一 些 不 同 之 处 ， 
= 每 个 树叶 对 应 于 一 个 “ 箱 "， 只 不 过 箱 不 必 具 有 相同 的 大 小 (如 Parzen 窗口 ) 或 相同 
个 数 的 实例 (如 和 最 近邻 )。 
箱 的 划分 不 仅仅 根据 输入 空间 中 的 相似 度 ， 而 是 需要 通过 炳 或 均 方 误差 ， 使 用 输出 
信息 。 
”决策 树 的 另 一 个 优点 是 仅 通 过 少量 比较 就 能 找到 树叶 ( 箱 )。 
e 决策 树 一 旦 构造 就 不 需要 存放 所 有 的 训练 集 ， 而 只 需要 存放 树 的 结构 、 决 策 节点 的 
参数 和 树叶 节点 的 输出 值 。 与 需要 存储 所 有 训练 实例 的 基于 核 的 或 基于 近邻 的 方法 
相 比 ， 这 意味 决策 树 的 空间 复杂 度 也 非常 小 。 
使 用 决策 树 ， 一 个 类 不 必 具 有 所 有 实例 都 匹配 的 单个 描述 。 一 个 类 可 以 具有 多 个 可 能 的 
描述 ， 它 们 甚至 可 能 在 输入 空间 中 不 相交 。 
树 不 同 于 上 一 章 讨论 的 统计 模型 。 树 直接 地 对 分 离 类 实例 的 判别 式 编码 ， 而 不 必 携带 许 
多 关于 这 些 实例 在 该 区 域 中 如 何 分 布 的 信息 。 决 策 树 是 基于 判别 式 的 〈discriminant- based) , 
而 统计 学 方法 是 基于 似 然 的 〈likelihood-based) ， 它 们 在 使 用 贝 叶 斯 规则 和 计算 判别 式 之 前 
显 式 地 估计 p(x | C,) 。 基 于 判别 式 的 方法 绕 过 类 密度 估计 ， 直 接 估计 判别 式 。 在 其 后 几 章 ， 
我 们 将 进一步 讨论 基于 判别 式 的 方法 。 





9.8 习题 


1. 将 Gini 指数 (9.5) 式 和 误 分 类 误差 (9. 6) 式 推广 到 K>2 个 类 。 考 虑 损失 函数 ， 将 误 分 类 
误差 推广 到 风险 。 

2. 对 于 数值 属性 ， 我 们 可 以 不 用 二 元 划分 ， 而 通过 两 个 阔 值 和 三 个 分 支 使 用 三 元 划分 

XX Wy, Way SX; EE Wy 

EMR MIAME, FURR oA ww。 与 二 元 节点 相 比 ， 这 种 节点 的 优 缺 点 是 
什么 ? 

3. 提出 一 种 带 回溯 的 树 归纳 算法 。 

4. 在 产生 单 变 量 树 时 ， 具 有 个 可 能 值 的 离散 属性 可 以 用 n 个 071 哑 变 量 表 示 ， 并 将 它们 
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看 作 是 n 个 分 别 的 数值 属性 。 这 种 方法 的 优 缺 点 是 什么 ? 

5. 为 球形 树 (9. 21) 式 推导 一 个 学 习 算 法 。 将 它 推广 到 椭 球 形 树 。 

6. 在 回归 树 中 ， 我 们 提 到 在 树叶 节点 不 是 计算 均值 ， 而 是 可 以 做 线性 回归 拟 合 ， 并 使 树叶 
上 的 响应 依赖 于 输入 。 对 分 类 树 提出 一 种 类 似 的 方法 。 

7. 为 回归 提出 一 种 规则 归纳 算法 。 
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第 10 章 线性 判别 式 


在 线性 判别 式 中 ， 我 们 假定 类 的 实例 是 线性 可 分 的 。 这 是 一 种 基于 判别 式 的 方法 ， 它 直 
接 估计 判别 式 的 参数 ， 而 不 必 先 估计 各 种 概率 。 本 章 ， 我 们 会 看 到 具有 不 同 偏 倚 的 不 同学 习 
算法 ， 从 给 定 的 有 标记 的 训练 样本 学 习 这 种 线性 判别 式 。 


10.1 引言 


在 前 面 的 章节 中 ， 对 于 分 类 ， 我 们 定义 了 -一 组 判别 起 函数 如 (z) ,j=1，…，K， 并 且 如 
g(x) =maxg,(x) ， 我 们 就 选择 C,. 


前 面 ， 在 我 们 讨论 分 类 方法 时 ， 我 们 首先 估计 先 验 概率 D(C.) MASUR p(x | C,) ， 再 使 

用 贝 叶 斯 规则 计算 后 验 密 度 。 然 后 ， 我 们 使 用 后 验 密度 定义 判别 式 函 数 ， 例 如 
g(x) = log p(C, | x) 

这 称 作 基 于 似 然 的 分 类 (likelihood- based classification) ， 并 且 我 们 在 前 面 已 经 讨论 了 估 
计 类 似 然 P(x | C,) 的 参数 (第 5 章 ) 、 半 参数 (第 7 章 ) 和 非 参 数 (第 8 章 ) 方 法 。 

现在 ， 我 们 讨论 基于 判别 式 的 分 类 (discriminant-based classification) ， 这 里 我 们 绕 过 似 然 
或 后 验 概率 的 估计 ， 直 接 为 判别 式 假定 模型 。 基 于 判别 式 的 方法 对 类 之 间 的 判别 式 形式 进行 
假设 ， 而 不 对 密度 ( 例如， 是 否 是 高 斯 分 布 ) 、 输 入 是 否 相关 等 知识 做 任何 假设 。 基 于 判别 
式 的 方法 被 称 为 非 参 数 (nonparametric) 方法 ， 这 里 参数 意 指 类 似 然 密度 的 参数 。 

我 们 为 判别 式 定义 一 个 模型 

gi(x|®,) 

显 式 地 用 参数 o, 的 集合 参数 化 。 这 与 基于 似 然 的 模式 不 同 。 基 于 似 然 的 方法 在 定义 似 然 密 
度 时 具有 隐 式 参数 。 这 是 不 同 的 归纳 偏 倚 : 我 们 对 判别 式 的 形式 进行 假设 ， 而 不 是 对 密度 的 
形式 进行 假设 。 

学 习 是 优化 模型 参数 中 ， 最 大 化 给 定 类 标号 的 训练 集 上 的 分 类 准确 率 。 这 不 同 于 基于 
似 然 的 方法 。 基 于 似 然 的 方法 分 别 为 每 个 类 搜索 最 大 化 样本 似 然 的 参数 。 

在 基于 判别 式 的 方法 中 ,我 们 并 不 关注 正确 地 估计 类 区 域 中 的 密度 ; 我 们 所 关注 的 是 正 
确 估 计 类 区 域 之 间 的 边界 ( boundary ) 。 基 于 判别 式 方法 的 创 导 者 (如 Cherkassky 和 Mulier 
1998 ) 指出 ， 估 计 类 密度 比 估计 类 判别 式 更 困难 ， 并 且 为 解决 较 容易 的 问题 而 解决 困难 的 问 
题 并 无 意义 。 当 然 ， 仅 当 判别 式 可 以 用 简单 函数 近似 时 才 确 实 如 此 。 

本 章 ， 我 们 关注 最 简单 的 情况 ， 其 中 判别 式 是 x 的 线性 函数 : 


à 
gx ws) = wix + wy = à + Wy (10.1) 
$ 


线性 判别 式 (linear discriminant) 经 常 使 用 ， 主 要 是 由 于 它 的 简单 性 ， 即 它 的 空间 和 时 间 
复杂 度 都 是 O(d) 。 线 性 模型 容易 理解 : 最 终 的 输出 是 若干 因素 的 加 权 和 。 权 重 的 大 小 显示 
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了 这 些 因素 的 重要 性 ， 而 它们 的 符号 显示 其 作用 的 正 负 。 大 部 分 函数 是 可 加 的 ， 因 为 输出 是 
若干 属性 作用 的 加 权 和 ， 其 中 权重 可 能 是 正 的 (加 强 ) 或 负 的 (抑制 )。 例 如 ， 当 一 位 顾客 申 
请 信用 卡 时 ， 金 融 机 构 计 算 申请 者 的 信用 得 分 。 得 分 一 般 是 多 个 属性 作用 之 和 。 例 如 ， 年 薪 
的 作用 为 正 ( 较 高 的 年 薪 增 加 得 分 ) 。 

在 许多 应 用 中 ， 线 性 判别 式 相当 准确 。 例 如 ， 我 们 知道 当 类 是 高 斯 的 ， 具 有 相同 的 协 方 
差 矩阵 时 ， 最 佳 的 判别 式 是 线性 的 。 然 而 ， 即 使 该 假设 不 成 立 ， 也 可 以 使 用 线性 判别 式 ， 并 
且 不 必 对 类 密度 做 任何 假设 就 能 计算 模型 参数 。 在 试用 更 复杂 的 模型 ， 确 保 附 加 的 复杂 性 是 
合理 的 之 前 ， 我 们 将 一 直 使 用 线性 判别 式 。 

正如 我 们 一 直 做 的 那样 ， 我 们 把 寻找 线性 判别 式 函 数 问题 归结 为 搜索 最 小 化 某 个 误差 函 
数 的 参数 值 问题 。 我 们 尤其 关注 优化 准则 函数 的 梯度 ( gradient) 方法 。 


10.2 推广 线性 模型 


当 线 性 判别 式 不 够 灵活 时 ， 我 们 可 以 提高 复杂 度 ， 使 用 二 次 判别 式 ( quadratic discrimi- 
nant) 函数 
g(x | W,w,w,) = x Wx + wx +wp (10.2) 
但 是 ， 这 种 方法 的 复杂 度 是 O(d) ， 并 且 我 们 还 会 遇 到 偏 倚 和 方差 的 两 难 选择 尽管 二 
次 模型 更 一 般 ， 但 是 它 需要 更 大 的 训练 集 ， 并 且 在 小 样本 上 可 能 过 分 拟 合 。 
一 种 等 价 的 方法 是 通过 增加 高 阶 项 (higher-order term) ， 又 称 乘积 项 (product term), Xf 
输入 进行 预 处 理 。 例 如 ， 对 于 两 个 输入 x 和 *,， 我 们 可 以 定义 新 变量 
Hy = Ssl = %3 = Sis% = Shl, = S% 
HM = [ns mo a, u, z] 为 输入 。 定 义 在 五 维 z 空间 上 的 线性 函数 对 应 二 维 x 空间 上 的 
非 线性 函数 。 替 代 在 原 空间 定义 非 线 性 函数 (判别 式 或 回归 ) ， 我 们 需要 做 的 是 定义 到 新 空 
间 的 、 合 适 的 非 线性 变换 ， 其 中 新 空间 上 的 函数 可 以 是 线性 的 。 
判别 式 可 以 表示 成 


à 
g(x) = Db) (10.3) 

HP oh, (x) JE 3 A k ( basis function)。 例 子 如 下 

sin(x,) 

exp( - (x, -m)*/c) 

exp( - || x-m ||?/e) 

log(x,) 

1(x,>c) 

1(ax, + bx, > c) 

HP m, a, b, c ERR, m&d, T b 为 真 时 1(b) 返 回 1， 和 否则 返回 0。 将 非 线 

性 函数 表示 成 非 线 性 基 函 数 的 线性 和 的 想法 并 非 新 想法 ， 并 且 最 初 称 作 潜 函 数 ( potential 

function) ( Aizerman Braverman 和 Rozonoer 1964) 。 在 10.9 节 ， 我 们 讨论 使 用 这 种 基 函 数 的 

支持 向 量 机 。 多 层 感知 器 (第 11 章 ) 和 径 向 基 函 数 (第 12 章 ) 具 有 进一步 的 优点 ， 可 以 在 学 

习 时 调整 基 函 数 的 参数 。 
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10.3 线性 判别 式 的 几何 意义 


10.3.1 两 类 问题 


让 我 们 从 最 简单 的 两 类 问题 开始 。 在 这 种 情况 下 ， 一 个 判别 式 函 数 就 足够 了 : 
g(x) = g(x) - g(x) 
= (wix + wy) — (wix + wy) 
= (w, — W2)" + (wo - wy) 
' = w'x + wy 
并 且 如 果 g(x)>0, REPE C, BWA C,。 
这 定义 了 一 个 超 平面 ， 其 中 w 是 权重 向 量 ( weight vector), w, 是 阅 值 (threshold)。 后 者 
称 作 阅 值 是 因为 规则 可 以 改写 为 : 如 果 wx -w。， 选 择 C,， 否 则 选择 C,。 超 平面 将 输入 
空间 划分 成 两 个 半空 间 : C, 的 决策 区 域 R, 和 C 的 决策 区 域 R,。R, 中 的 任何 x 都 在 超 平面 
的 正 (positive) 侧 ， 而 R, 中 的 任何 x 都 在 超 平面 的 负 (negative) 侧 。 当 x 为 0 时 ,g(x)=w。 
并 且 如 果 我 们 有 we > 0， 则 原点 在 超 平面 的 正 侧 ， 如 果 w。<0， 则 原点 在 超 平面 的 负 侧 ， 而 
如 果 w。=0， 则 超 平面 经 过 原点 ( 见 图 10-1) 。 


x 


g GO =w x ew ee 








图 10-1 在 二 维 情况 下 ， 线 性 判别 式 是 一 条 将 两 个 类 的 实例 分 开 的 直线 
取决 策 面 上 的 两 个 点 x 和 x,( 即 g(x,) =g(x,) =0)， 则 
w'x, + Wo = wx, + wo 
w(x, -x,) =0 
并 且 我 们 看 到 w 是 超 平面 上 的 任意 向 量 的 法 线 。 让 我 们 将 x 改写 为 (Duda、Hart 和 Stork 2001) 


x 2x, 4r 
^ lw 


Jtr ox, 是 x 到 超 平面 的 法 向 投影 ， 而 ~ 给 出 x 到 超 平面 的 距离 ， 如 果 x 在 负 侧 ， 则 它 为 负 ; 
WR x 在 正 侧 ， 则 它 为 正 (参见 图 10-2) 。 计 算 g(x) 并 注意 g(x,) =0, RNA 
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p= 8) 
Iw 
于 是 ， 我 们 看 到 超 平面 到 原点 的 距离 为 
Wo 
"= Tel 


RH, w 决定 超 平面 关于 原点 的 位 置 ， 而 w 决定 它 的 方向 。 


n 


g 00-0 







g GO «0 g G0»0 


hr wit 


ig GO Well 


图 10-2 线性 判别 式 的 几何 解释 


10.3.2 多 类 问题 


当 存在 K> 2 个 类 时 ， 有 天 个 判别 式 函数 。 当 它们 都 是 线性 的 时 ， 我 们 有 


Bi(x | Wiwo) = wIx + wo 


(10.4) 


(10.5) 


(10.6) 


稍 后 ， 我 们 将 讨论 学 习 ， 但 是 现在 我 们 假定 参数 w, 和 ww 的 计算 使 得 对 于 训练 集中 的 所 有 x, 


>0 和 如果 x eC 


g(x|w,wo) = ls d. 


(10.7) 


使 用 这 种 判别 函数 相当 于 假设 所 有 的 类 都 是 线性 可 分 的 (linearly separable); 即 对 于 每 
个 类 C,， 存 在 一 个 超 平面 及， 使 得 所 有 的 xs C, 都 在 它 的 正 侧 ， 所 有 的 xs C,, j x i 都 在 它 


的 负 侧 (参见 图 10-3) 。 





图 10-3 ”在 线性 分 类 ， 每 个 超 平面 HH C, 类 的 实例 与 其 他 类 的 实例 分 开 。 为 了 做 
到 这 一 点 ， 类 应 当 是 线性 可 分 的 。 嫂 线 是 线性 分 类 器 的 归 约 后 的 边界 
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在 检验 时 ， 给 定 x， 理 想 情况 下 应 当 只 有 一 个 g(xr)( =1，…，K) 大 于 0， 而 其 他 的 都 
小 于 0。 但是， 并 非 总 是 如 此 : 这 些 超 平面 的 正 的 半 个 空间 可 能 重 倒 ， 或 者 说 可 能 存在 所 有 
的 g,(x) 都 小 于 0 的 案例 。 这 些 案例 可 以 看 作 拒 绝 (reject) 案例 ,但 是 通常 的 方法 是 将 x 指 
派 到 具有 最 大 判别 式 值 的 类 : 

选择 C, 如 果 g(x) = max},g,(x) (10. 8) 
注意 ，| g,(x) | /1 w, || 是 从 输入 点 x 到 超 平面 的 距离 。 假 定 w, 具有 类 似 的 长 度 ， 这 将 该 点 
指派 到 这 个 类 ，( 在 所 有 的 2, (x) 0 中 ) 该 点 到 其 超 平面 最 远 。 这 称 作 线性 分 类 器 (linear 
classifier) ， 并 且 它 将 特征 空间 几何 地 划分 成 下 个 是 决策 区 域 Ri( 参见 图 10-3) 。 


10.4 逐 对 分 离 


如 果 类 不 是 线性 可 分 的 ， 一 种 方法 是 将 它 分 成 一 组 线性 问题 。 一 种 可 能 的 方法 是 逐 对 分 
离 (pairwise separation) ( Duda, Hart 和 Stork 2001) 。 它 使 用 K(K - 1)/2 个 线性 判别 式 gy 
(x) ， 每 对 不 同 的 类 一 个 (参见 图 10-4) : 


Bul X| Wy wu) = wix + wy 





图 10-4 在 逐 对 线性 分 离 中 ， 每 一 对 类 有 一 个 分 离 超 平面 。 一 个 输入 被 指派 到 C, 
它 应 当 在 H M H AY TE D CH S I TE DERE Hs, HNA); 我们 不 考虑 HL (IC 
在 这 种 情况 下 ，C, 不 是 关于 其 他 类 线性 可 分 的 ， 但 却 是 逐 对 线性 可 分 的 


参数 w,(j z i) 在 训练 时 计算 ,使 得 
>0 如 果 x eC, 
g(x) =) <0 如 果 x eC ij=1,…,K 并 有 i zj (10.9) 
RRL 否则 
HR, WME x'eC,, k xi, k#j, 则 在 gw(z) 训 练 时 不 使 用 天 。 
在 检验 时 ， 如 果 对 任意 的 jz i, 都 有 &y(z)>0， 则 我 们 选择 Co 
在 许多 情况 下 ， 可 能 对 于 任何 i,， 这 一 条 件 都 不 满足 ， 而 如 果 我 们 不 想 丢 弃 这 种 情况 的 
话 ， 我 们 可 以 用 如 下 和 式 放 宽 该 合 取 : 
g(x) = EeO (10. 10) 
m 


即使 这 些 类 不 是 线性 可 分 的 ， 如 果 这 些 类 是 逐 对 线性 可 分 的 (这 种 情况 可 能 性 更 大 ) ， 
则 可 以 使 用 逐 对 分 离 ， 导 致 类 的 非 线性 分 离 (参见 图 10-4) 。 这 是 将 复杂 问题 (例如 ， 非 线性 
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问题 ) 分 解 成 一 系列 较 简单 问题 (例如 ， 线 性 问题 ) 的 又 一 种 方法 。 我 们 已 经 看 到 使 用 这 一 思 
想 的 决策 树 ( 第 9 章 ) ， 并 且 在 第 15 章 ， 我 们 还 将 看 到 组 合 多 个 模型 的 更 多 例子 ， 例 如 校 错 
输出 码 和 混合 专家 模型 ， 其 中 线性 模型 数 小 于 O( K* ) 。 


10.5 参数 判别 式 的 进一步 讨论 


在 第 5 dE, 我们 看 到 如 果 类 密度 p(x | C,) 是 高 斯 的 ， 并 且 具 有 共同 的 协 方差 矩阵 ， 则 判 
别 式 函数 是 线性 的 


B(x) = wix + wo (10. 11) 
其 中 参数 可 以 用 下 式 解 析 地 计算 
w= X"p, 
wo =~ 73'a, + log P(C,) (10. 12) 


给 定数 据 集 ， 我 们 首先 计算 上 A, ME 的 估计 ， 然 后 把 估计 m, 和 S 插入 (10. 12) 式 ， 并 计 
算 线 性 判别 式 的 参数 。 
让 我 们 再 次 考虑 两 类 的 特殊 情况 。 我 们 定义 y = PCC, |x), pC, |x) =1-y。 则 在 分 
类 时 ， 我 们 
y>0.5 


EA 
选择 Ci, 如 果 | Py 1， 否则 选择 Ci。 
lg 这 >0 


log y/(1 -y) 称 作 分 对 数 (logit) 变换 或 y ff] xt A JL (log odd) 。 在 两 个 共享 相同 的 协 方 
差 矩 阵 的 正 态 类 的 情况 下 ， 对 数 几 率 是 线性 的 : 











P(C, |x) P(C, |x) 
logit( P(C, |x)) = tog In = log Ste Ta) 
= log P100. , tog PACCO 
p(x|C,) P(C,) 
a e male le (172) (x - ,)'X" (x -u)] jog CC. 
(22) ^ | X | "^ expl - (1/2) (x -pa)7Z (x -p2)] P(C,) 
= w'x +w, 
(10. 13) 
其 中 
w-X'(nu,-pu) 
wo = -到 (ww *n)X' (n, -Aa) + og et (10. 14) 
AIC 3 


P(C, |x) 


pris CLA nd 
logT pee, Ix) w'x + wo 
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FEL MAH (logistic) 函数 ， 又 称 S H (sigmoid) 函数 ( 见 图 10-5) : 
1 


P(C, |x) = sigmoid(w"x + w,) = TCU EET 
a 


(10. 15) 


1 
09H 
08r 
07 
0.6 
0.5 
04 
03 
02 
01 








i | 
SUR a Re SRE TDS na Sar RR aT 


图 10-5 逻辑 斯 谤 (或 5 形 ) 函数 


在 训练 阶段 ， 我 们 估计 m,，m,，S， 并 将 这 些 估计 插入 (10.14) 式 , 计算 判别 式 的 参 
数 。 在 检验 阶段 ， 给 定 x， 我 们 可 以 

1. 计算 g(x) 2 wx +w。， 并 且 如 果 g(x)>>0， 则 选择 C,; 或 者 

2. 计算 y = sigmoid(w"x &w,) , IFAM y 0.5, WBE C,， 因 为 sigmoid(0) =0.5。 

在 后 一 种 情况 下 ，5 形 函 数 将 判别 式 的 值 变换 为 后 验 概率 。 当 有 两 个 类 并 且 只 有 一 个 判 
别 式 时 ， 这 是 有 效 的 。 在 10.7 节 ， 我 们 将 讨论 如 何 对 天 > 2 估计 后 验 概率 。 


10.6 梯度 下 降 


在 基于 似 然 的 分 类 ， 参 数 是 p(x | C.) 和 P(C,) 的 有 效 统计 量 ， 而 我 们 使 用 的 估计 参数 的 
方法 是 最 大 化 似 然 。 在 基于 判别 式 的 方法 中 ， 参 数 是 判别 式 的 参数 ， 并 且 它 们 在 最 小 化 训练 
集 上 的 分 类 误差 是 最 优 的 。 当 w 表示 参数 集 ，E(w X) 表示 参数 w 在 给 定 训练 集 X 上 的 误差 
时 ， 我 们 寻找 





w= argminE(w |X) 

在 许多 情况 下 ， 其 中 的 一 些 稍 后 我 们 将 看 到 ， 不 存在 解析 解 ， 而 我 们 需要 求助 于 和 迭代 优 
化 方法 。 最 常用 的 方法 是 梯度 下 降 ( gradient descent) 方 法 : 当 E(w) 是 变量 向 量 的 可 微 函 数 
时 ,我 们 有 偏 导数 组 成 的 梯度 向 量 ( gradient vector) 
3E OE... 3D 
Ow, dw,” "aw, 
和 梯度 下 降 (gradient descent) 过 程 来 最 小 化 已。 该 方法 从 随机 向 量 w 开始 ， 并 在 每 一 步 沿 
与 该 梯度 相反 的 方向 更 新 w 


V.E = 


Aw, 2-22 vi (10. 16) 
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w, = ow, + Aw, (10. 17) 
HP n HEH K (stepsize) RFI AF (learning factor) ， 决 定向 该 方向 移动 多 少 。 梯 度 上 
升 用 来 最 大 化 函数 ， 并 沿 着 梯度 的 方向 前 进 。 当 我 们 得 到 极 小 (或 极 大 ) 值 时 ， 导 数 等 于 0， 
过 程 终止 。 这 表明 过 程 找到 了 一 个 最 近 的 极 小 值 ， 可 能 是 局 部 极 小 值 。 除 非 函 数 只 有 一 个 极 
小 值 ， 否 则 不 能 找到 全 局 极 小 。 使 用 较 好 的 n 值 也 是 至 关 重 要 的 。 如 果 太 小 ， 收 全 可 能 太 
慢 ; 太 大 可 能 导致 摆动 甚至 发 散 。 

在 本 书 中 ， 我 们 使 用 的 梯度 方法 很 简单 ， 并 且 相 当 有 效 。 然 而 ,我 们 要 记 住 ， 一 旦 确定 了 
合适 的 方法 和 误差 函数 ， 就 可 以 使 用 多 种 可 能 技术 中 的 一 种 来 优化 模型 参数 ， 以 便 最 小 化 误差 
函数 。 存 在 一 些 二 阶 方法 和 共 二 梯度 ， 收 敛 更 快 ， 但 内 存 开销 和 计算 量 更 大 。 像 模拟 退火 和 遗 
传 算法 这 样 的 开销 更 大 的 方法 可 以 更 彻底 地 搜索 参数 空间 ， 而 不 太 依赖 初始 点 的 选择 。 


10.7 逻辑 斯 谤 判别 式 


10.7.1 两 类 问题 


T 3E 9b Mf HH F) 91 X (logistic discrimination) 中 ， 我 们 不 是 对 类 条 件 密度 p(x | C.) ， 而 是 对 
它们 的 比率 建 模 。 让 我 们 还 是 从 两 类 问题 开始 ， 并 假定 对 数 似 然 比 是 线性 的 : 
p(x|C,) 
ETC) 
当 类 条 件 密度 为 正 态 时 (10. 13) ， 这 种 假设 确实 成 立 。 但 是 ， 逻 辑 斯 谤 判别 式 具 有 更 广 
泛 的 应 用 。 例 如 ，Y 可 能 由 离散 属性 组 成 ， 或 者 可 能 是 连续 和 离散 属性 的 混合 。 
使 用 贝 叶 斯 规则 ， 我 们 有 


= wx tw, (10. 18) 








| 215 EG, Dx) 
logi PCC, |x)) = logi POC Tey 
p(x|C,) P(C,) 
= 108 lG) * °8 P(C,) 
Seen (10.19) 


其 中 
P(C,) 
P(C;) 





wo = we + log 


(10. 20) 
重新 整理 ， 我 们 又 得 到 S 形 函 数 


y =P(C, |x) = 


1+exp[-(wrxz + w,)] SED 


作为 P(C, | xz) 的 估计 。 
让 我 们 看 看 如 何 学 习 w 和 wo: 给 定 两 个 类 的 样本 X= lx, nl, pink xec, Mr = 
1， 如 果 xe C, 则 "=0。 我 们 假定 给 定 x',r' 是 伯 努 利 分 布 ， 具 有 (10. 21) 式 计算 的 概率 7 = 
(PCC, | x) : 
7 |x! ~ Bernoulli(y') 


这 里 ， 我 们 看 到 了 基于 似 然 的 方法 与 基于 判别 式 的 方法 的 区 别 : 对 于 前 者 ， 我 们 对 
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P(x | C,) 建 模 ; 对 于 后 者 ， 我 们 直接 对 +|x 建 模 。 样 本 的 似 然 是 
lw,w |X) = TT) Pa -y) 0? (10. 22) 
我 们 知道 ， 当 我 们 有 一 个 需要 最 大 化 的 似 然 函 数 时 ， 我 们 总 是 将 它 转换 成 需要 最 小 化 的 
误差 函数 EE= -log 1， 并 且 在 我 们 的 问题 中 ， Ril ZIM (cross-entropy) : 
E(w,wo |X) =- Y rlog y' + (1 - r)log(1 - y) (10.23) 
RT GE FA BB HE TF RE IN CELA, EY FAL DR BET BIR. WM y = sigmoid 


(a) =1/(1 *exp( -a))， 则 它 的 导数 为 
2 -y1-» 
并 且 我 们 得 到 如 下 更 新 方程 ; 


Aw, E 





- (EC ny = ld 


aw -ni nD GC y) (10. 24) 


最 好 用 接近 于 0 的 随机 值 初始 化 w,; 通常 ， 它 们 从 区 间 [ -0.01，0. 01] 中 均匀 地 抽取 。 这 
样 做 的 理由 是 ， 如 果 wo, 数值 很 大 ， 则 加 权 和 可 能 也 很 大 并 且 S 形 函数 可 能 饱和 。 从 图 10-5 
我 们 看 到 ， 如 果 初 始 权重 接近 于 0， 则 和 在 区 域 中 间 ， 那 里 导数 非 零 ， 可 以 进行 更 新 。 如 果 
加 权 和 很 大 (小 于 -5 RAF +5), WS 形 函 数 的 导数 几乎 为 0， 权 值 将 不 会 更 新 。 

伪 代 码 在 图 10-6 中 。 我 们 看 图 10-7 中 的 例子 ， 其 中 输入 是 一 维 的 。 直 线 wx +w, ME 
的 S 形 函数 之 后 的 值 都 作为 学 习 和 迭代 次 数 的 函数 显示 。 我 们 看 到 ， 为 了 得 到 输出 0 和 1，S 
形 函 数 逐 渐 适应 ， 这 通过 增 大 w 的 数值 实现 。 





Forj=0, =, d 
四 一 mmd( -0.01, 0.01) 
Repeat 
Forj=0，…，d 
mi 一 0 
Fort=1，…，N 
o0 
Forj=0, =, 





oco + wx) 
ysigmoid(0) 
Forj=0, =, d 
Am 一 Am + (r -y) xf 
Forj=0, =, d 
jew, + nde, 


Until dicat 











图 10-6 对 于 具有 两 个 类 、 单 个 输出 ,实现 梯度 下 降 的 逻辑 斯 谤 判别 分 析 算法 。 对 于 w, 
我 们 假定 存在 一 个 附加 的 输入 n, CRH +l: 三 +1, Vt 
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P(C,1x) 


-0.5| 











-2 





0-855-EkT 151,024 25- TSK ASH 41145475 


图 10-7 ”对 于 一 元 两 类 问题 (用 “。” 和 “x” 显 示 )， 样 本 上 10K, 100K 
和 1 000 KERZE, MER wx + w 和 S 形 函 数 输出 的 演变 


一 旦 训练 完成 并 且 我 们 得 到 了 最 终 的 w 和 we， 在 检验 阶段 ， 给 定 *， 我 们 计算 y = sig- 
moid(wrx + to) ， 并 且 如 果 yY>0.5 则 选择 C,， 否 则 选择 C,。 这 意味 ， 为 了 最 小 化 误 分 类 
数 ， 我 们 不 需要 学 习 到 y 是 0 或 1， 而 只 需要 学 习 到 y 小 于 或 大 于 0.5。 如 果 超 过 该 点 后 我 
们 还 继续 学 习 ， 互 炳 将 继续 降低 ( | w | 将 继续 增加 ， 硬 化 S 形 函数 ) ， 但 是 误 分 类 数 将 不 会 
减少 (如 果 类 是 线性 可 分 的 ， 它 将 为 0) 。 

注意 ， 尽 管 为 了 导出 判别 式 ， 我 们 假定 类 密度 的 对 数 比 是 线性 的 ， 但 是 我 们 直接 估计 后 
验 概率 ， 而 不 显 式 地 估计 P(z | C) & P(C,). 


10.7.2 多 类 问题 


现在 ， 让 我 们 推广 到 K> 2 个 类 : 我 们 取 其 中 一 个 类 ， 例 如 C,， 作 为 引述 类 并 假定 
plx |C) 





os TC.) = wix + wy (10. 25) 
FE, RNA 
pele = oexpwIx + wp] (10. 26) 
其 中 wo =w + log P(C,)/P(C,) o 
我 们 看 到 


PETA TAPE 
A Pela Peay T Aart a] 


Wariano = ER (10.27) 


1+ Y exp[wix + wy] 
名 
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并 且 还 有 
P(C, |x) 
P(C, |x) 





= exp[wix  w,] 
" 
SPC le) = e kt (40:28) 
EDIT 
4 
为 了 一 致 地 处 理 所 有 的 类 ， 我 们 记 作 


yr Cr 1, 4022.7) yr (10.29) 


X einn + wp] 
这 称 为 软 最 大 (softmax) 函数 ( Bridle 1990) 。 如 果 一 个 类 的 加 权 和 明显 大 于 其 他 类 的 加 权 
和 ， 则 通过 取 指数 和 规范 化 推进 之 后 ， 它 对 应 的 y, 将 接近 于 1， 而 其 他 的 将 接近 于 0。 这 
样 ， 除 了 可 导 之 外 ， 它 就 像 取 最 大 ， 因 此 得 名 软 最 大 。 软 最 大 还 保证 Ziy, =1。 
让 我 们 看 如 何 学 习 参 数 : AE KD 2 个 类 这 种 情况 下 ， 每 个 样本 点 是 一 次 多 项 试验 取 值 ， 
Bir! |x'~Mult,(1, »), X y = PCC, |x')。 样 本 的 似 然 为 


K{w,wol IX) = TE TO" (10. 30) 
TM Be I : ku 
EClw;,wsl, lx) =- Y, Y, rilog y; (10.31) 
我 们 再 次 使 用 梯度 下 降 。 如 果 y = exp(a,)/Sexp(a,), WRIA 
95 Ls, - y) (10.32) 


ða, 
其 中 6, 是 Kronecker ô, WR i=j EX1, WR LA IU008 3). ME Xr-1, MF j= 
1, K, RATA EERE 


Aw, = LP» 2 EO -y)x 
= 0X Diy - yox 
=a [ X5 Xu. 
= DAG =y)x 
Aw, = 0d (5-7) (10. 33) 


注意 ， 由 于 软 最 大 中 的 规范 化 ，w, 和 wp ANE x' e C VM, MARZ x'e Cir j) 
的 影响 。 更 新 判别 式 使 得 取 软 最 大 之 后 正确 的 类 具有 最 大 的 加 权 和 ， 而 其 他 类 的 加 权 和 尽 可 
能 小 。 伪 代码 在 图 10-8 中 给 出 。 对 于 具有 三 个 类 的 二 维 样本 ， 轮 廓 线 在 图 10-9 中 给 出 ， 而 
判别 式 和 后 验 概率 在 图 10-10 中 。 
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wy my + Aw 
Until dic a 











图 10-8 REF K>2 个 类 ， KARE FENER HH SC GE 
为 了 一 般 起 见 ， 对 于 任意 +， RSS 








图 10-9 对 于 具有 三 个 类 的 二 维 问题 ， 逻 辑 斯 谤 判别 式 发 现 的 解 。 细 
RÆ g(x) =0， 而 粗 线 是 取 极 大 的 线性 分 类 器 得 到 的 边界 


在 检验 阶段 ,我 们 计算 所 有 的 y, k=1, =, K, EWR y, = max, y,， 则 选择 Co R 
们 仍然 不 必 为 尽 可 能 地 极 小 化 互 炉 而 一 直 训 练 ， 我们 只 需要 训练 到 正确 的 类 具有 最 大 的 加 权 
和 ， 并 通过 检查 误 分 类 数 ， 提 前 停止 训练 。 j 

MGE SAM, PEMAIN, REEMA KS YS 
的 错误 率 ( MeLachlan 1992) 。 当 类 条 件 密度 非 正 态 时 ,或 当 它 们 非 单 峰 时 ， 只 要 类 是 线性 可 
分 的 ， 逻 辑 斯 谤 判别 式 仍然 可 以 使 用 。 
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图 10-10 对 于 图 10-9 中 的 相同 样本 ， 线 性 判别 式 ( 上 ) 和 软 最 大 后 的 后 验 概率 (下 ) 


当然 ， 类 条 件 密度 的 比 不 限于 是 线性 的 ( Anderson 1982; McLachlan 1992) 。 假 定 一 个 二 
次 判别 式 ， 我 们 有 
og? E1) 
p(x|€,) 
对 应 并 推广 具有 不 同 协 方差 矩阵 、 满 足 多 元 正 态 类 条 件 分 布 的 参数 判别 式 。 当 了 很 大 时 ， 正 
如 我 们 可 以 化 简 ( 正 规 化 )3, 一 样 ， 我 们 可 以 通过 只 考虑 它 的 前 面 的 本 征 向 量 ， 对 W, 做 同 
样 的 事 。 
正如 10.2 节 所 讨论 的 ， 可 以 用 基本 变量 的 任意 指定 函数 作为 x- 变 量 。 例 如 ,我们 可 以 
把 判别 式 写成 非 线性 基 函 数 的 线性 和 


ple) o. 
o Ce] Gy = wid(x) + wy (10. 35) 





= x'W,x + wix + wo (10. 34) 
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HH, © C) 是 基 函 数 ， 可 以 看 作 变换 后 的 变量 。 用 神经 网 络 的 术语 ， 这 称 作 多 层 感 知 器 
(multilayer perception) (第 11 3€), ij S 形 函 数 是 最 常用 的 基 函 数 。 当 使 用 高 斯 基 函 数 时 ， 
这 种 模型 称 作 径 向 基 函 教 ( radial basis function) (第 12 章 ) 。 我 们 甚至 可 以 使 用 完全 非 参数 的 
方法 ， 如 Parzen 窗口 (第 8 章 ) 。 


10.8 回归 判别 式 


对 于 回归 ， 概 率 模型 是 
r=y+e (10. 36) 
其 中 se~N(0, o). inRr'elo, 11, HASERA, Wy 可 能 限于 落 在 该 区 间 。 假 定 线 
性 模型 和 两 个 类 ， 我 们 有 
1 








Wa EE Et E 
Y = sigmoid(w"s! +w) = re N (10.37) 
{BE r|x ~N(y,，o*)， 则 回归 中 的 样本 似 然 为 
P 1 (ayy 
Iron |X) = [I Fe |G] (10.38) 
最 大 化 该 对 数 似 然 是 最 小 化 误差 的 平方 和 : 
E(w,w |X) E o sa) (10.39) 
使 用 梯度 下 降 ， 我 们 得 到 
Aw = > (r -y)y OQ - y)x 
Aw, = 2Y C -y)yQ - 9") (10. 40) 
当 存在 K> 2 个 类 时 ， 也 可 以 使 用 这 种 方法 。 概 率 模型 是 
r=y+e (10.41) 
3th e-2(0, oI)。 假 定 每 个 类 一 个 线性 模型 ， 我 们 有 
RAIRE E o a3 1 
y, = sigmoid(w/x' + wo) = TIT ETIN (10. 42) 
于 是 ， 样 本 的 似 然 为 
= 1 _ Jr-y|’ 
DO HL er Eh | (10.43) 
而 误差 函数 为 
Eww O = 至 马上 -= 立马 2 00.4) 
对 于 i=1，…，K， 更 新 方程 为 
Aw, = Y (ry) - yx 
Aw, = 1 (ri - XX 7») (10.45) 


注意 ， 在 这 样 做 时 ， 我 们 并 未 使 用 y, 中 的 一 个 为 1， 其 余 为 0, 或 Y y =1 的 信息 。 由 
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于 输出 是 类 后 验 概率 估计 ，(10.29) 式 的 软 最 大 函数 使 得 我 们 可 以 纳入 这 些 附加 信息 。 在 
>>2 的 情况 下 ,使 用 S 形 函 数 ， 我 们 像 对 待 独立 函数 一 样 对 待 y,。 

还 要 注意 ， 对 于 给 定 的 类 ， 如 果 我 们 使 用 回归 方法 ， 则 更 新 将 进行 到 正确 的 输出 为 1， 
其 余 为 0 才 停止 。 事 实 上 ， 这 是 不 必要 的 ， 因 为 在 检验 时 ， 我 们 只 是 选择 最 大 的 。 训 练 到 正 
确 的 输出 大 于 其 他 输出 就 足够 了 ， 这 正 是 软 最 大 函数 所 做 的 。 

因此 ， 当 类 不 是 互 斥 的 和 穷 举 的 时 ， 也 就 是 说 ,对 于 一 个 x**， 所 有 的 7; 可 能 都 为 0， 即 
x 不 属于 任何 一 个 类 ; 或 者 当 类 重 倒 时 ， 可 能 多 个 nO D 时 ， 这 种 具有 多 个 S 形 函 数 的 方法 
更 可 取 。 


10.9 支持 向 量 机 


10.9.1 最 佳 分 离 超 平面 


现在 ， 我 们 讨论 一 种 学 习 线性 判别 式 的 不 同方 法 。 我 们 不 必 惊奇 ， 即 使 对 于 线性 分 类 这 
种 简单 情况 ， 也 存在 许多 不 同 的 方法 。 每 种 方法 都 具有 不 同 的 归纳 偏 倚 ， 做 不 同 的 假设 ， 定 
义 不 同 的 目标 函数 ， 因 此 可 能 发 现 不 同 的 线性 判别 式 。 


让 我 们 还 是 从 两 类 开始 ， 并 使 用 -1/ +1 标记 这 两 个 类 。 样 本 为 X= lx, rl, pink 
x'eC, Nr - «1, 如 果 x'eC, 则 r= -1。 我 们 希望 找到 w 和 wo， 使 得 
对 于 =+1， wix'+w S41 
Mr = - 1， w'x cw, <-1 


它们 可 以 合并 ， 改 写 为 
r'(w'x' +w) +1 (10. 46) 
注意 ， 我 们 并 不 是 简单 地 要 求 
r(w'x + w) 20 
为 了 更 好 地 泛 化 ,我们 不 仅 希望 实例 在 超 平面 的 正确 的 一 侧 ， 而 且 我 们 还 希望 它们 离 超 
平面 有 一 定 距离 。 超 平面 到 它 两 侧 最 近 实 例 的 距离 称 作 边 缘 (margin) 。 为 了 更 好 地 泛 化 ， 我 
们 希望 最 大 化 边缘 。 最 佳 分 离 超 平面 (optimal separating hyperplane) 是 最 大 化 边缘 的 超 平面 。 
回忆 10.3 节 ，x' 到 判别 式 的 距离 为 
| wx! + wo | 
lwi 
Mrel-1, «1|IBf, ERT URHE 
r'(w'x' + w) 
Iw Il 
至 少 对 于 某 个 p， 我 们 希望 它 


r(w'x' + wy) 


ie (10. 47) 
我 们 希望 最 大 化 p, 但 是 缩放 w， 我 们 可 以 得 到 的 解 有 无 限 多 个 。 为 了 得 到 唯一 的 解 ， 
FRAT BLE p || w || =1。 这 样 ， 为 最 大 化 边缘 ， 我 们 最 小 化 Iw | 。 这 个 任务 可 以 定义 为 ( 见 


Cortes 和 Vapnik 1995; Vapnik 1995) : 
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mint fw ERP rz +w) medo (10. 48) 


这 是 一 个 标准 的 二 次 优化 问题 ， 其 复杂 度 依赖 于 4， 并 且 可 以 直接 求解 ， 找 到 w 和 w。。 于 
是 ， 在 超 平面 的 两 侧 ， 实 例 离 超 平面 至 少 为 1/ || w | ， 而 整个 边缘 为 2/ || w ‖ (参见 图 10-11) 。 


* 


g (x) =+ 





Tiwi S 









2/hwll AN 









x 
图 10-11 在 最 佳 分 离 超 平面 两 侧 ， 实 例 离 超 平面 至 少 为 1/ wl, TENRA 27 Iw I 


在 10.2 节 我 们 看 到 ， 如 果 问 题 不 是 线性 可 分 的 ， 我 们 不 是 拟 合 非 线性 函数 ， 而 是 使 用 
非 线性 基 范 数 将 问题 映射 到 新 的 空间 。 通 常 ， 新 空间 的 维度 比 原 空 间 更 高 ， 并 且 在 这 种 情况 
下 ， 我 们 对 复杂 度 不 依赖 输入 维度 的 方法 感 兴趣 。 

在 找 最 佳 分 离 超 平面 时 ， 我 们 可 以 把 该 优化 问题 转换 成 复杂 度 依赖 于 训练 实例 数 NN， 而 
不 依赖 于 d 的 形式 。 这 种 新 公式 的 另 一 个 优点 是 它 使 得 我 们 可 以 用 核 函数 改写 基 函 数 ， 如 
10. 9.3 节 所 示 。 

为 了 得 到 新 的 公式 ， 我 们 使 用 拉 格 朗 日 乘 子 a', 将 (10.48) 式 改写 成 非 约 束 问题 : 


= 二 1wlz- Be +w) -1] 
4 zl -XarO +w.) + Yo (10.49) 


这 应 当 关 于 w, wo s XTa'20H2 ít. BAR. 
这 是 一 个 凸 二 次 优化 问题 ， 因 为 主要 项 是 凸 的 ， 并 且 线 性 约束 也 是 凸 的 。 这 样 RIIT 
以 使 用 Karush- Kuhn- Tucker 条 件 ， 解 其 对 偶 问 题 。 对 偶 问题 是 关于 a 最 大 化 心 ， 受 限于 约 
3L, KF w 和 w 的 梯度 为 0， 并 且 a' 20: 
S cow Les’ (10. 50) 
A oer =0 (10.51) 


o 


将 它们 代入 (10. 49) 式 ， 我 们 得 到 对 偶 问题 




















220) 
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Lie io^ -w'Y ors -u Ya «Yo 
=-4(w'w) + Le 
=- ix X err(xyx + Ya’ (10. 52) 
我 们 只 需要 关于 a' 对 它 最 大 化 ， 受 限于 约束 Y a'r =0 Ma's0, Vio 


这 可 以 使 用 二 次 优化 方法 求解 。 对 偶 问 题 的 规模 依赖 于 样本 的 大 小 N， 而 不 依赖 于 输入 
的 维度 4。 时 间 复 杂 度 的 上 界 为 O(N ) ， 而 空间 复杂 度 的 上 界 为 O( N*) 。 

一 旦 我 们 对 o 求解 ， 我 们 看 到 尽管 它们 有 N 个 ， 但 是 多 半 随 w =0 消失 ， 而 只 有 少量 
满足 w >0, Ha’ >0 fü x' 的 集合 是 支持 向 量 (support vector) ， 并 且 正如 我 们 在 (10.50) 式 
中 所 看 到 的 ，w 可 以 写成 那些 选 作 支持 向 量 的 训练 实例 的 加 权 和 。 这 些 x' 满足 

rx +w) =1 
并 且 落 在 边缘 上 。 我 们 使 用 这 一 事实 ， 由 任意 支持 向 量 来 计算 w: 
w, 2r -w'x! (10.53) 

从 稳定 性 讲 ， 建 议 对 所 有 支持 向 量 计算 上 式 ， 并 取 平均 值 。 这 样 找 出 的 判别 式 称 作 支持 
向 量 机 (support vector machine, SVM) 。 

a 大 部 分 为 0， 对 于 它们 ，r (wx' +wo)> Lo KM x' 落 在 远离 边缘 内 部 的 地 方 ， 并 且 
对 超 平面 没有 影响 。 从 这 个 角度 讲 ， 这 种 算法 与 精简 的 最 近邻 算法 (8.5 节 ) 类 似 ， 它 只 保存 
定义 类 判别 式 的 实例 。 作 为 基于 判别 式 的 算法 ，SVM 只 关注 那些 靠近 边界 的 实例 ， 而 丢弃 
那些 落 在 内 部 的 实例 。 使 用 这 种 思想 ， 可 以 在 求 SVM 之 前 先 使 用 一 种 较 简 单 的 分 类 器 过 滤 
掉 这 种 实例 的 大 部 分 ， 从 而 降低 SVM 优化 阶段 的 复杂 度 。 

在 检验 阶段 ， 我 们 不 强调 边缘 。 我 们 计算 g(x) = wx +w。， 并 根据 g(x) 的 符号 选择 : 

如 果 g(x) >0 选择 C, ， 否 则 选择 C:。 

当 存 在 K> 2 个 类 时 ， 一 种 直截了当 的 方法 是 定义 大 个 两 类 问题 ， 每 个 将 一 个 类 与 其 他 
类 分 开 ， 并 学 习 K 个 支持 向 量 机 g,(x*)，i = 1，…，K。 在 检验 阶段 ， 我 们 计算 所 有 的 
gi(x) ， 并 选择 最 大 的 。 


10.9.2 不 可 分 情况 : 软 边缘 超 平面 


如 果 数 据 不 是 线性 可 分 的 ， 则 我 们 前 面 讨论 的 算法 就 不 能 解决 问题 。 在 这 种 情况 下 ， 如 

果 两 个 类 不 是 线性 可 分 的 ， 致 使 不 存在 将 它们 分 开 的 超 平面 ， 则 我 们 寻找 出 错 最 少 的 超 平 

面 。 我 们 定义 松弛 变量 (slack variable) =0， 存 放 到 边缘 的 离 差 。 有 两 种 类 型 的 离 差 : 一 个 

实例 可 能 位 于 超 平面 的 错误 一 侧 ， 并 被 错误 地 分 类 ; 或 者 实例 可 能 在 正确 的 一 侧 但 可 能 落 在 
边缘 中 ， 即 离 超 平面 不 够 远 。 放 宽 (10. 46) 式 ， 我 们 要 求 

r(w'x'+w.) 三 1 一 如 (10.54) 

MRE =0, Mr RAAB. MRO<E <1, We 被 正确 分 类 ， 但 是 它 在 边缘 中 。 如 

SEL, Wx! 被 错误 地 分 类 ( 见 图 10-12)。 误 分 类 数 为 #1 二 1| ， 并 且 不 可 分 的 点 数 为 
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HE 2019, RAR KAR (soft error) H Y 台 ， 并 且 将 它 作为 罚 项 添加 到 原来 的 (10. 49) 
RF: 


= 二 w+ CEE- Y alr ew) te) Xuf (10.55) 





图 10-12 在 对 实例 进行 分 类 时 ， 有 三 种 可 能 的 情况 : (1)5 =0， 点 在 正确 的 一 侧 ， 
并 且 离 超 平面 足够 远 。(2)6 = 1 + &(z) 过 1， 点 在 错误 的 一 侧 。(3)5 = 
1-&8(x*)，0 一 上 一 1， 点 在 正确 的 一 侧 ， 但 在 边缘 中 ， 离 超 平面 不 够 远 


其 中 心 是 新 的 拉 格 朗 日 参数 ， 确 保 台 为 正 。C 是 罚 因 子 ， 像 任意 正则 化 模式 一 样 ， 在 复杂 
度 ( 支 持 向 量 数 ) 和 数据 误 拟 合 (不 可 分 点 数 ) 之 间 权 衡 。 注 意 ， 我 们 不 仅 罚 误 分 类 的 点 ， 为 
了 更 好 的 泛 化 也 罚 边缘 中 的 点 ， 尽 管 后 者 在 检验 时 将 正确 地 分 类 。 

对 偶 问题 是 

be = Da’ ay Er) (10. 56) 
受 限 于 
Mor =0OFB0<a' &C,Vt 

与 可 分 情况 一 样 ， 非 支持 向 量 的 那些 实例 随 o^ =O 消失 ， 而 其 余 的 定义 mw。 然后 ，w 用 

类 似 的 方法 求解 。 


10.9.3 核 函数 


10. 2 节 指 出 ， 如 果 问 题 是 非 线 性 的 ， 我 们 不 是 训练 一 个 非 线性 模型 ， 而 是 使 用 合适 的 
基 函 数 ， 通 过 非 线性 变换 将 问题 映射 到 新 空间 ， 然 后 再 在 新 空间 使 用 线性 模型 。 新 空间 中 的 
线性 模型 对 应 原 空间 中 的 非 线性 模型 。 这 种 方法 可 以 用 于 分 类 和 回归 ， 并 且 对 于 分 类 这 种 特 
殊 情 况 ， 它 可 以 与 任意 模式 一 起 使 用 。 在 支持 向 量 机 这 种 特定 情况 下 ， 正 如 我 们 将 看 到 的 ， 


O 这 里 ， 误 分 类 的 实例 是 不 能 用 足够 宽 的 边缘 将 其 分 开 的 实例 。 尽 管 其 中 某 些 被 正确 地 分 类 ， 但 是 我 们 仍然 把 它 
们 算 作 误 分 类 ， 因 为 我 们 希望 不 同类 的 实例 相距 足够 远 。 一 一 译 者 注 
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这 导致 某 种 简化 。 
设 我 们 有 用 基 函 数 
Z = 中 (xz) ,其 中 五 = 由 (z) = 1 
计算 的 新 的 维 ， 将 d- 维 x 空间 映射 到 k- 维 z 空间 ， 其 中 判别 式 表示 为 
g(z) = w'z 
g(x) = w'ó(x) 


2 22) (10. 57) 
这 里 ， 我 们 并 不 使 用 单独 的 w; RIBEZ = 4, (x) = 1, HH, 上 远大 于 d, 上 也 大 于 N， 
并 且 这 也 是 使 用 对 偶 形式 的 优点 。 对 偶 问题 的 复杂 度 依 赖 于 N， 如 果 我 们 使 用 原 问题 ， 则 复 
杂 度 将 依赖 于 上。 这 里 ， 我 们 也 使 用 软 边缘 超 平面 的 更 一 般 情 况 ， 因 为 我 们 不 能 保证 问题 在 
新 空间 是 线性 可 分 的 。 然 而 ， 与 任何 正则 化 方法 一 样 ， 这 里 至 关 重 要 的 是 为 罚 因 子 C 选取 
适当 的 值 。 如 果 C 太 大 ， 则 不 可 分 的 点 的 罚 太 高 ， 我 们 可 能 存放 很 多 支持 向 量 ， 并 可 能 过 
分 拟 合 。 如 果 太 小 ， 则 可 能 拟 合 不 够 。 
解 是 


w= Jart = F arol) (10. 58) 


而 判别 式 是 
glx) = wlx) = Y a'r'h(2')"O(x) (10. 59) 
核 机 器 (kernel machine ) ft) 3& AE £8.48 IE JH 3c 8] ABE A A A A 2s [8] "P 160 48 A 27 [8] f 4c Mc 
(kernel function) K(x', x) BARBER MAY ABR (x) (x) : 
a(x) = Y a'r'K(x',x) (10. 60) 
最 流行 的 核 函 数 有 
a 9g 次 多 项 式 : 
KG a xta Et 
其 中 9 由 用 户 选择 。 例 如 ， 当 g=2, d=2 m, 
K(x,y) = (x"y +1)? 
= (my, + saya +1)? 
= 1 +29, *2xy, + 2mm + yp + AYA 
它 对 应 于 基 函 数 的 内 积 (Cherkassky 和 Mulier 1998) ; 
$(x) = 1,422, 2x, 2,2, 2) 1] 
= FAAK: 
kz,z) = exp [ - esl] 
o 


与 Parzen 窗口 一 样 (第 8 章 ) ， 它 定义 球形 核 ， 其 中 x" APL, Mo 由 用 户 提供 ， 定 义 
半径 。 这 类 似 于 第 12 章 讨论 的 径 向 基 函 数 。 
= SHAK: 

K(x',x) = tanh(2x/x' +1) 
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其 中 tanh -) 5 S 形 函数 具有 相同 的 形状 ， 不 同 的 是 它 的 取 值 在 -1 和 +1 之 间 。 这 类 似 

于 我 们 将 在 第 11 章 讨论 的 多 层 感知 器 。 

也 可 以 使 用 其 他 核 函 数 ， 受 限于 一 定 条 件 ( Vapnik 1995; Cherkassky 和 Mulier 1998) , 

Cortes 和 Vapnik (1995) 报告 了 SVM 在 手写 数字 识别 应 用 方面 的 成 功 结果 。 输 入 是 16 x 16 
的 位 图 ， 因 此 为 256 维 。 在 这 种 情况 下 ， 使 用 三 次 多 项 式 核 意味 特征 空间 为 105 维 。 结 果 表 
明 在 7300 个 实例 的 训练 集 上 没有 发 生 过 分 拟 合 ， 平 均 选 取 了 148 个 实例 作为 支持 向 量 。 

Vapnik ( 1995 ) 证 明 期 望 误差 率 为 


Es[P(error)] < 


其 中 E[*] 表 示 在 大 小 为 N 的 训练 集 上 的 期 望 。 因 此 ， 误 差 率 依赖 于 支持 向 量 数 ， 而 不 依赖 
输入 的 维度 。 


E,[ 支持 向 量 数 ] 
N 


10.9.4 用 于 回归 的 支持 向 量 机 


尽管 本 章 讨论 分 类 ， 但 是 简略 地 讨论 如 何 将 支持 向 量 机 推广 到 回归 也 是 有 益 的 。 我 们 使 
用 线性 模型 : 
f(x) = wx ew, 


对 于 回归 ， 我 们 使 用 差 的 平方 作为 误差 : 


er f(x)) = [r -f(x')]? 
然而 ， 对 于 支持 向 量 回归 ， 我 们 使 用 e - 敏感 损失 函数 : 
0 如 果 |r' -f(x')|<e 


y ')) = 10. 61 
CU m -fKx)l-s EN im 


这 意味 我 们 容忍 高 达 e 的 误差 ， 并且 超 出 的 误差 具有 线性 而 不 是 平方 影响 。 因 此 ， 这 种 
误差 函数 更 能 抵御 噪声 ， 因 而 更 加 重 棒 (参见 图 10-13) 。 
70 





50 











Day ne a a D BR E 8 


图 10-13 平方 误差 函数 和 s - 敏感 误差 函数 。 我 们 看 到 s - 敏感 误差 函数 不 受 
小 误差 的 影响 ， 并 且 受 大 误差 的 影响 也 较 小 ， 因 此 对 离 群 点 更 鲁 棒 


类 似 于 软 边缘 超 平面 ， 我 们 引入 松弛 变量 来 处 理 超越 。 - 区 域 的 偏差 ， 并 且 得 到 (Vap- 
nik 1995) 
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min jw)? CX (E+E) (10.62) 
受 限 于 


r = (wie too 二 et 总 
(wxtw)-rzesttE 
£20 
这 里 ， 对 正 的 和 负 的 偏差 ， 我 们 使 用 了 两 种 类 型 的 松弛 变量 ， 以 保证 它们 为 正 。 该 式 对 应 
(10. 61) 式 中 给 出 的 。 -敏感 损失 函数 。 
正如 Vapnik(1995 ) 给 出 的 ， 可 以 将 它 写成 拉 格 朗 日 函数 ， 然 后 取 它 的 对 偶 问题 。 这 里 
也 可 以 使 用 核 函数 。 与 分 类 一 样 ， 结 果 将 选择 一 些 训练 实例 作为 支持 向 量 ， 而 回归 线 将 用 它 
们 的 加 权 和 表示 。 


10.10 注释 


由 于 其 简单 性 ， 线 性 判别 分 析 是 模式 识别 研究 最 多 的 课题 ( Duda、Hart 和 Stork 2001; 
McLachlan 1992) 。 我 们 在 第 4 章 讨 论 了 具有 公共 协 方差 矩阵 的 高 斯 分 布 情况 ， 在 第 6 章 讨论 
了 费 希 尔 线性 判别 式 ， 并 在 本 章 纵览 了 其 他 方法 ， 直 到 最 近 的 支持 向 量 机 方法 。 在 第 11 章 ， 
我 们 将 讨论 感知 器 ， 它 是 线性 判别 式 的 神经 网 络 实现 。 

逻辑 斯 席 判 别 式 的 更 详细 讨论 在 Anderson 1982 和 McLachlan 1992 H, 34W W (SJE ) 
函数 是 分 对 数 的 着， 在 伯 努 利 抽样 中 称 作 规 范 链 (canonical link) 。 软 最 大 是 对 多 元 正 态 抽样 
的 拓 广 。 关 于 广义 线性 模型 ( geiieralized linear model) 的 更 多 信息 在 McCullogh 和 Nelder 
1989 中 。 

关于 支持 向 量 机 的 更 多 信息 可 以 在 Vapnik 所 写 的 书 (1995;，1998 ) 中 找到 。Cherkassky 
和 Mulier 1998 中 关于 SVM 的 一 章 非常 容易 阅读 。Burges 1998, Smola 和 Schölkopf 1998 分 别 
是 SVM 分 类 和 回归 的 很 好 的 人 门 读 物 。 在 http :Vsvm. research. bell- labs. com 和 http://www. 
kernel-machines. org， 还 有 两 个 专门 的 Web 网 站 ， 包 含 了 实例 applets(Java 程序 ) 和 关于 SVM 
的 指南 和 文章 的 链接 。 


10.11 习题 

1. 对 于 如 下 每 个 基 函 数 ， 指 出 它 在 何 处 非 零 ; 
a. sin(x,) b. exp( - (x, -@)?/e) c. exp( - || x-a || ^7c) 
d. log(z;) e. 1(x, >c) £.1(ax, *bx, >c) 


2. 对 于 图 10-2 的 二 维 情况 ， 证 明 (10.4) 和 (10.5) 式 。 

3. 证 明 软 最 大 y,  exp(a,) /exp(a)) 的 导 函 数 是 0y,/2a, 2 y,(8, - y) , FE MIR ij MW 6, 为 
1, Bill 6 为 0。 

4. & Kz2, 证 明 用 两 个 软 最 大 输出 等 于 使 用 一 个 S 形 输出 。 

5. 在 (10. 34) 式 中 ,我 们 如 何 学 习 W,? 
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$119 多 层 感 知 器 


多 层 感知 器 是 一 种 人 工 神经 网 络 结构 ， 是 非 参 数 估计 器 ， 可 以 用 于 分 类 和 回归 。 我 们 讨 
论 为 各 种 应 用 训练 多 层 感知 器 的 后 向 传播 算法 。 


11.1 518 


人 工 神经 网 络 模型 ， 其 中 之 一 是 我 们 本 章 讨论 的 多 层 感 知 器 ， 其 灵感 源 于 模拟 人 脑 。 和 旨 
在 理解 人 脑 功能 ， 并 朝 着 这 一 目标 努力 的 认 知 科学 家 和 神经 学 家 (Posner 1989) 构建 了 人 脑 
的 神经 网 络 模型 ， 并 开展 了 模拟 研究 。 

然而 ， 在 工程 上 ， 我 们 的 目标 不 是 理解 人 脑 的 本 质 ， 而 是 构建 有 用 的 机 器 。 我 们 对 人 工 
神经 网 络 (artificial neural networks) 感 兴趣 ， 因 为 我 们 相信 它们 可 能 帮助 我 们 建立 更 好 的 计算 
机 系统 。 人 脑 是 一 种 信息 处 理 装置 ， 具 有 非凡 的 能 力 并 且 在 许多 领域 ， 例 如 ， 视 觉 、 语 音 识 
别 和 学 习 方 面 ， 都 超过 了 当前 的 工程 产品 。 如 果 在 机 器 上 实现 ， 这 些 应 用 显然 都 具有 经 济 效 
益 。 如 果 我 们 能 够 理解 人 脑 如 何 实现 这 些 功能 ， 我 们 就 可 以 用 形式 算法 定义 这 些 任 务 的 解 ， 
并 且 在 计算 机 上 实现 它们 。 

人 脑 与 计算 机 很 不 相同 。 计 算 机 通常 只 有 一 个 处 理 器 ， 而 人 脑 却 包含 大 量 (10" 个 ) 并 行 
操作 的 处 理 单元 ， 称 作 神 经 元 (neuron) 。 尽 管 处 理 细 节 尚 不 清楚 ， 但 是 人 们 相信 这 些 处 理 单 
元 比 计算 机 中 的 处 理 器 简单 得 多 、 并 且慢 得 多 。 使 得 人 脑 不 同 寻常 并 且 被 认为 提供 了 其 计算 
能 力 的 是 连通 性 : 人 脑 的 神经 元 具有 连接 ， 称 作 突 触 (synapse) ， 连 接 到 大 约 10* 个 其 他 神 
经 元 ， 所 有 神经 元 都 并 行 地 操作 。 在 计算 机 中 ， 处 理 器 是 主动 的 ， 而 存储 是 分 散 和 被 动 的 ， 
但 是 我 们 认为 在 人 脑 中 ， 处 理 和 存储 都 在 网 络 上 分 布 ; 处 理由 神经 元 来 做 ， 而 记忆 在 神经 元 
之 间 的 突 触 中。 


11.1.1 理解 人 脑 
根据 Marr(1982) ， 理 解 一 个 信息 处 理 系统 具有 三 个 层面 ， 称 作 分 析 层 面 (levels of 


analysis) : 

1. 计算 理论 (computational theory ) 对 应 计算 目标 和 任务 的 抽象 定义 。 

2. 表示 和 算法 (representation and algorithm) 是 关于 输入 和 输出 如 何 表示 和 从 输入 到 输出 
变换 的 算法 说 明 。 

3. 硬件 实现 (hardware implementation) 是 系统 的 实际 物理 实现 。 

一 个 例子 是 排序 : 计算 理论 是 对 给 定 的 元 素 集合 排序 。 表 示 可 以 使 用 整数 ， 而 算法 可 以 
是 Quieksort( 快 速 排序 ) 。 编 译 后 ， 特 定 处 理 机 对 二 进 制 表示 的 整数 排序 的 可 执行 代码 是 一 
种 硬件 实现 。 

基本 思想 是 ， 对 于 相同 的 计算 理论 ， 可 以 有 多 种 表示 和 在 相应 表示 上 操控 符号 上 的 算 
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法 。 类 似 地 ， 对 于 给 定 的 表示 和 算法 ， 可 以 有 多 种 硬件 实现 。 我 们 可 以 使 用 众多 排序 算法 中 
的 一 种 ， 并 且 即 使 相同 的 算法 也 可 以 在 使 用 不 同 处 理 器 的 计算 机 上 编译 ， 导 致 不 同 的 硬件 
实现 。 

考虑 另 一 个 例子 ,“6”、“VI” 和 “110” 是 数字 6 的 不 同 表示 。 加 法 的 不 同 算法 依赖 于 
所 使 用 的 表示 。 数 字 计算 机 使 用 二 进 制 表示 ， 并 具有 这 种 表示 的 加 法 电路 ， 这 是 一 种 特殊 的 
硬件 实现 。 在 算盘 上 ， 数 用 不 同 的 方法 表示 ， 并 且 加 法 对 应 不 同 的 指令 集 ， 这 是 另 一 种 硬件 
实现 。 当 我 们 在 大 脑 中 将 两 个 数 相 加 时 ， 我 们 使 用 另 一 种 表示 和 一 种 适合 于 这 种 表示 的 算 
法 ， 这 由 神经 元 实现 。 但 是 ， 所 有 不 同 的 硬件 实现 (例如 ,我们 、 算 盘 和 数字 计算 机 ) 都 实 
现 了 相同 的 计算 理论 一 一 加 法 。 

经 典 的 例子 是 自然 和 人 工 的 飞行 器 之 间 的 不 同 : 麻 洛 拍打 它 的 双翼 ; 商用 飞机 并 不 拍打 
机 翼 ， 而 是 使 用 喷气 引擎 。 麻 党 和 飞机 是 两 种 硬件 实现 ， 为 不 同 的 目的 而 构建 ， 满 足 不同 的 
约束 。 但 是 它们 都 实现 了 相同 的 理论 一 一 空气 动力 学 。 

人 脑 是 学 习 或 模式 识别 的 一 种 硬件 实现 。 如 果 从 这 种 特定 的 实现 ， 我 们 可 以 做 逆 工 程 ， 
提取 人 脑 使 用 的 表示 和 算法 ， 并 且 如 果 我 们 能 够 从 中 获得 计算 理论 ， 则 我 们 可 以 使 用 另 一 种 
表示 和 算法 ， 然 后 得 到 更 适合 我 们 的 含义 和 约束 的 硬件 实现 。 我 们 希望 我 们 的 实现 价格 低 
廉 、 快 速 、 并 且 更 准确 。 

当初 构建 飞行 器 时 ， 直 到 发 现 空气 动力 学 之 前 ,我们 一 直 在 尝试 构建 看 上 去 非常 像 鸟 的 
飞行 器 。 与 此 相同 ， 直 到 我 们 发 现 智能 的 计算 理论 之 前 ， 早 期 尝试 构建 具有 大 脑 能 力 的 结构 
看 上 去 将 很 像 大 脑 ， 是 具有 大 量 处 理 单元 的 网 络 。 因 此 可 以 说 ， 就 理解 大 脑 而 言 ， 当 我 们 研 
究 人 工 神经 网 络 时 ， 我 们 处 于 表示 和 算法 层面 。 

正如 羽毛 与 飞行 不 相关 一 样 ， 将 来 我 们 可 能 发 现 神经 元 和 突 触 与 智能 并 无 关系 。 但 是 ， 
在 此 之 前 ， 我 们 对 理解 大 脑 机 能 感 兴趣 还 有 另 一 个 原因 ， 这 种 原因 与 并 行 处 理 有 关 。 


11.1.2. 神经 网 络 作为 并 行 处 理 的 典范 


自 20 世纪 80 年 代 以 来 ,具有 数 以 千 计 处 理 器 的 计算 机 系统 已 经 商品 化 。 然 而 ， 用 于 这 
种 并 行 结构 的 软件 并 不 像 硬件 发 展 这 么 快 。 原 因 是 到 目前 为 止 我 们 的 计算 理论 几乎 都 基于 中 
行 的 、 单 处 理 器 机 器 。 我 们 不 能 有 效 地 使 用 并 行 机 ， 因 为 我 们 不 能 有 效 地 对 它们 编程 。 

主要 有 两 种 并 行 处 理 ( parallel processing) 范 型 : 在 单 指令 多 数据 (SIMD) 机 ， 所 有 的 处 理 
器 都 执行 相同 的 指令 ， 但 是 在 不 同 的 数据 上 执行 。 在 多 指令 多 数据 ( MIMD) 机， 不 同 的 处 理 
器 可 以 在 不 同 的 数据 上 执行 不 同 的 指令 。SIMD 机 容易 编程 ， 因 为 只 需要 写 一 个 程序 。 然 而 ， 
问题 很 少 具有 这 种 有 规律 的 结构 以 能 在 SIMD 机 上 并 行 地 执行 。MIMD 机 更 一 般 , 但 是 为 每 
个 处 理 器 编写 单独 的 程序 并 不 是 一 件 容易 的 任务 ; 其 他 问题 涉及 同步 、 处 理 器 之 间 的 数据 传 
送 等 。SIMD 机 也 比较 容易 构建 ， 并 且 如 果 它 们 都 是 SIMD 机 ， 则 可 以 构建 具有 更 多 处 理 器 
的 机 器 。 在 MIMD 机 中 ， 处理 器 更 加 复杂 ， 并 且 还 要 为 处 理 器 任意 地 交换 数据 构建 更 复杂 的 
通信 网 络 。 

现在 ,假设 我 们 可 以 有 机 器 ， 其 中 处 理 器 比 SIMD 处 理 器 复杂 一 点 ,但 没有 MIMD 处 理 
器 复杂 。 假 定 我 们 有 一 些 简单 处 理 器 ， 具 有 少量 局 部 存储 器 ， 可 以 存放 一 些 参数 。 每 个 处 理 
器 实现 一 个 固定 的 函数 ， 并 且 执行 与 SIMD 处 理 器 一 样 的 指令 ; 但 是 通过 将 不 同 的 值 装 入 局 
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部 存储 器 ， 它 们 可 以 做 不 同 的 事情 ， 并 且 整 个 操作 可 以 在 这 些 处 理 器 上 分 布 执行 。 这 样 R 
们 将 有 可 以 称 作 神 经 指令 多 数据 (NIMD) 机 ， 其 中 每 个 处 理 器 对 应 一 个 神经 元 ， 局 部 参数 对 
应 它 的 突 触 权 重 ， 而 整个 结构 是 一 个 神经 网 络 。 如 果 每 个 处 理 器 中 实现 的 功能 很 简单 ， 并 且 
局 部 存储 器 很 小 ， 则 许多 这 样 的 处 理 器 可 以 放 在 一 个 芯片 中 。 

现在 的 问题 是 将 任务 分 布 到 这 种 处 理 器 的 网 络 中 和 确定 局 部 参数 的 值 。 这 是 学 习 进行 的 地 
方 : 如 果 这 样 的 机 器 可 以 从 实例 学 习 ， 则 我 们 自己 不 需要 为 这 种 机 器 编制 程序 和 决定 参数 值 。 

因此 ， 人 工 神 经 网 络 是 一 种 我 们 可 以 使 用 当前 技术 构建 的 、 利 用 并 行 硬件 的 方法 一 一 多 
亏 了 学 习 一 一 它们 不 需要 编程 。 因 此 ， 我 们 也 不 必 费 神 为 它们 编程 。 

本 章 ， 我 们 讨论 这 种 结构 和 如 何 训练 它们 。 记 住 ， 人 工 神 经 网 络 操作 是 一 种 数学 函数 
它们 可 以 在 串 行 计算 机 上 实现 ， 并 且 训练 网 络 与 我 们 在 前 面 的 章节 中 讨论 的 统计 学 技术 并 无 
太 大 差别 。 仅 当 我 们 有 并 行 硬件 ， 并 且 仅 当 网 络 太 大 ， 不 能 在 串 行 机 上 快速 模拟 时 ， 考 虑 这 
些 操作 在 简单 处 理 单元 的 网 络 上 进行 才 是 有 意义 的 。 


11.2 感知 器 





感知 器 (perceptron) 是 基本 处 理 元 素 。 它 具有 输入 ， 其 输入 可 能 来 自 环境 或 者 可 以 是 其 他 
感知 器 的 输出 。 与 每 个 输入 x RG =1，…，d) 相 关联 的 是 一 个 连接 权重 (connection weight) 
或 突 触 权重 (synaptic weight)w, e &, MMH y 在 最 简单 情况 下 是 输入 的 加 权 和 (参见 图 11-1) : 


f 
Eie Soke UE (1.1) 
Dt 





„=+ x % x 


图 11-1 简单 感知 器 ,x%(j=1，…，d) 是 输入 单元 ，x。 是 偏 倚 单 元 ， 其 值 
总 是 为 1。y 是 输出 单元 。w 是 从 到 输出 的 有 向 连接 的 权重 


其 中 w 是 截 距 值 ， 它 使 模型 更 一 般 ; 通常 把 它 作为 一 个 来 自 附加 的 偏 倚 单 元 ( bias unit) x, 
的 权重 ， 而 x。 总 是 为 +1。 我 们 可 以 把 感知 器 的 输出 写成 点 积 
y= wx (11.2) 
其 中 w=[wo， w, =, w], x=[1, x, =, x4] 是 增 广 向 量 (augmented vector), 包含 
偏 倚 权 重 和 输入 。 
在 检验 时 ， 给 定 权 重 w， 对 于 输入 x 我 们 计算 输出 y。 为 了 实现 给 定 的 任务 ， 我 们 需要 
学 习 系 统 的 参数 权重 w， 使 得 我 们 可 以 产生 给 定 输入 的 正确 输出 。 
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当 d=1 并 且 * 通 过 输入 单元 由 环境 馈 人 时 ,我 们 有 
y = wx + w 
这 是 以 w HRB, w 为 截 距 的 直线 方程 。 这 样 ， 这 种 具有 一 个 输入 和 一 个 输出 的 感知 器 可 
以 用 来 实现 线性 拟 合 。 使 用 多 个 输入 ， 直 线 变 成 了 ( 超 ) 平 面 ， 而 具有 多 个 输入 的 感知 器 可 
以 实现 多 元 线性 拟 合 。 给 定 样本 ， 通 过 回归 可 以 找 出 参数 ww( 见 5.8 节 ) 。 
(11. 1) 式 定义 的 感知 器 定义 了 一 个 超 平面 ， 因 此 可 以 用 来 将 输入 空间 划分 成 两 部 分 : y 值 
为 正 的 半 个 空间 和 y 值 为 负 的 半 个 空间 (参见 第 10 章 )。 通 过 用 它 实现 线性 判别 函数 ， 检 查 输 
出 的 符号 ， 感 知 器 可 以 将 两 个 类 分 开 。 如 果 我 们 定义 (7) 28 WA oi ( threshold function) 
Ha) = fl 加 果 a>0 ttijsj 
0 $9 
则 如 果 s(w'x)7 0 我 们 可 以 选择 C, ， 否 则 选择 C:。 
记 住 使 用 线性 判别 式 假 定 类 是 线性 可 分 的 。 也 就 是 说 ， 假 定 可 以 找到 分 开 x e Ci 和 
x'e C, 的 超 平面 wx =0。 如 果 在 后 一 阶段 我 们 需要 后 验 概率 (例如 计算 风险 ) ， 我 们 需要 在 
输出 使 用 S 型 函数 





1 
1 + exp[ - wrx] 


当 存在 K> 2 个 输出 时 ， 有 天 个 感知 器 ， 每 个 都 具有 权重 向 量 w,( 参 见 图 11-2) 


y = sigmoid(o) = (11.4) 


x 
yr Yw + wa = Wix 
2 


y = We (11.5) 
其 中 tw 是 从 输入 x, 到 输出 y, 的 连接 权重 。W 是 ws 的 上 x (4d+1) 矩 阵 ， 其 行 是 天 个 感知 器 
的 权重 向 量 。 当 用 于 分 类 时 ， 在 检验 阶段 ， 如 果 y, = maxy, ， 则 我 们 选择 C o 


» » x 


» w, 
w x 


x4 x x x, 


图 11-2 KK 个 并 行 的 感知 器 。%(j=0，…，d) 是 输入 ，y,(i=1，…,K) 是 输出 。ws” 
是 从 输入 x, 到 输出 y, 的 连接 权重 。 每 个 输出 都 是 输入 的 加 权 和 。 当 用 于 天 
类 问题 时 ， 有 一 个 后 处 理 ， 选 择 最 大 的 ， 或 者 需要 后 验 概率 时 选择 软 最 大 


O 图 中 并 未 标 出 wyf， 但 标 出 了 权重 向 量 w ，w: ，…，wxr。 一 一 取 自 作者 勘误 
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在 神经 网 络 中 ， 每 个 感知 器 的 值 是 它 的 输入 和 它 的 突 触 权重 的 局 部 函数 (local function) 。 
然而 在 分 类 中 ， 如 果 我 们 需要 后 验 概率 (而 不 仅 是 获胜 者 类 的 编码 ) 并 使 用 软 最 大 ， 则 我 们 还 需 
要 其 他 输出 值 。 这 样 ， 为 了 将 其 作为 神经 网 络 实现 ， 我 们 可 以 将 其 看 作 一 个 两 阶段 过 程 ， 其 中 
第 一 阶段 计算 加 权 和 ， 而 第 二 阶段 计算 软 最 大 值 ; 但 是 我 们 仍然 将 其 表示 成 单个 输出 单元 层 : 

0, = wix 


exp 0, 


y= (11.6) 
Lowa 

回忆 一 下 ， 通 过 定义 附加 的 输入 ， 例 如 ， 定 义 z =x}, x, 7232, x, 7 x3, (10.2 35), AR 
性 模型 也 可 以 用 于 多 项 式 逼 近 。 对 于 感知 器 也 可 以 这 样 做 ( Durbin 和 Rumelhart 1989)。 在 
11.5 节 ， 我 们 将 看 到 多 层 感知 器 ， 那 里 非 线性 函数 从 数据 中 学 习 ， 而 不 是 先 验 假定 。 

第 10 章 讨论 的 线性 判别 式 的 任何 方法 都 可 以 离线 地 计算 w,，i=1，…，K， 然 后 插入 到 
网 络 中 。 这 包括 具有 公共 些 方差 矩阵 的 参数 方法 、 逻 辑 斯 席 判 别 式 、 借 助 于 回归 的 判别 式 和 
支持 向 量 机 。 在 某 些 情 况 下 ， 在 训练 开始 时 我 们 并 没有 全 部 样本 ， 并 且 随 着 新 的 实例 到 来 ， 
我 们 需要 迭代 地 更 新 参数 ; 我 们 将 在 11.3 节 讨论 这 种 在 线 学 习 。 

(11.5) 式 定义 了 一 个 从 4- 维 空间 到 K- 维 空间 的 变换 ， 如 果 大 一 4， 它 也 可 以 用 于 维 归 
约 。 我 们 可 以 使 用 第 6 章 中 的 任何 方法 (如 PCA) 离 线 地 计算 W， 然 后 使 用 感知 器 实现 变换 。 
在 这 种 情况 下 ， 我 们 有 两 层 网 络 ， 其 中 第 一 层 感知 器 实现 线性 变换 ， 而 第 二 层 在 新 空间 实现 
线性 回归 或 分 类 。 注 意 ， 由 于 两 层 都 是 线性 变换 ， 因 此 它们 可 以 组 合并 用 一 层 表 示 。 在 
11.5 节 ， 我 们 将 看 到 更 有 趣 的 情况 ， 其 中 第 一 层 实现 非 线性 维 归 约 。 


11.3 训练 感知 器 


感知 器 定义 了 一 个 超 平面 ， 而 神经 网 络 感知 器 只 不 过 是 实现 超 平面 的 一 种 方法 。 给 定数 
据 样本 ， 权 重 可 以 离线 地 计算 ， 并 且 将 它们 代入 后 ， 感 知 器 就 可 以 用 来 计算 输出 的 值 。 

在 训练 神经 网 络 时 ， 如 果 未 提供 全 部 样本 而 是 逐个 提供 实例 ， 则 我 们 通常 使 用 在 线 学 
习 ， 并 且 在 每 个 实例 之 后 更 新 网 络 参数 ， 让 网 络 缓慢 地 及 时 调整 。 这 种 方法 是 令 人 感 兴趣 
的 ， 有 如 下 原因 : 

1. 这 使 得 我 们 不 必 在 外 存 存 放 训练 样本 ， 不 必 在 优化 时 存放 中 间 结 果 。 对 于 大 样本 ， 
像 支持 向 量 机 这 样 的 方法 (10. 9 节 ) 开销 可 能 相当 高 ， 而 对 于 某 些 应 用 ， 我 们 可 能 更 愿意 选 
择 较 简单 的 方法 ， 不 必 存 放 全 部 样本 并 在 其 上 求解 复杂 的 优化 问题 。 

2. 问题 可 能 随时 变化 ， 这 意味 样本 的 分 布 不 固定 ， 训 练 集 不 能 预先 选 定 。 例 如 ， 我 们 
可 能 正在 实现 一 个 语音 识别 系统 ， 它 要 自动 适应 它 的 用 户 。 

3. 可 能 存在 系统 的 物理 变化 。 例 如 ， 在 一 个 机 器 人 系统 中 ， 系 统 部 件 可 能 磨损 ， 传 感 
器 可 能 失灵 。 

对 于 在 线 学 习 (online learning) ， 我 们 不 需要 全 部 样本 而 是 需要 单个 实例 上 的 误差 函数 。 
从 随机 初始 权重 开始 ， 在 每 次 迭代 中 ， 我 们 都 对 参数 稍 加 调整 ， 以 最 小 化 误差 ， 而 不 忘记 我 
们 先前 学 到 的 。 如 果 误 差 函数 是 可 微 的 ， 则 我 们 可 以 使 用 梯度 下 降 。 

例如 ， 对 于 回归 ， 单 个 具有 标 引 + 的 实例 (x',，r') 的 误差 为 


EQu|x n) = 30 ~ 9)? 2 dto - or)? 
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并 且 对 于 j=0，…，d， 在 线 更 新 为 
Aw! oq. -y)x, (11.7) 
其 中 是 学 习 因 子 ， 随 收敛 逐渐 威 小 。 这 称 作 随 机 梯度 下 降 ( stochastic gradient descent) 。 

类 似 地 ， 可 以 对 使 用 逻辑 斯 说 判别 式 的 分 类 问题 导出 更 新 规则 。 在 那里 ， 每 个 模式 之 后 
进行 更 新 ， 而 不 是 把 它们 累加 在 一 起 ， 在 完全 扫描 整个 训练 集 之 后 再 进行 更 新 。 对 于 两 个 
X, HATRA, r), EPAR x EC Wri =1， 如 果 x“e C, 则 7;=0， 单 个 输出 为 

Y = sigmoid(w"x') 
Wi us 
E'( {w}, |x',r') =- r logy + (1 - r')log(1 - y') 
使 用 梯度 下 降 ， 对 于 j=0，…，d， 我 们 得 到 如 下 更 新 规则 : 


Aw; = q(r' - y)x (11.8) 
当 存在 KK> 2 个 类 时 ， 对 单个 实例 (x',，r')， 其 中 如 果 x'eC, ri =1, ZR =0, 输出 为 
Ce wix' 


Dew wis" 


E'( dwi}, |x'r') =- Y r log y, 
使 用 梯度 下 降 ， 对 于 i=1，…， K, j=0，…，d， 我 们 得 到 如 下 更 新 规则 : 
Aw, = (ri - Xx (11.9) 
除了 不 在 所 有 的 实例 上 求 和 ， 而 是 在 单个 实例 之 后 更 新 外 ， 这 与 我 们 在 10.7 节 中 看 到 的 方 
程 一 样 。 算 法 的 伪 代 码 在 图 11-3 中 ， 它 是 图 10-8 算法 的 在 线 版 本 。 


Wi dO 








Repeat 
For MUUE FRKA (s, r) ex 
Fori=1, =, K 
0,0 
Forj=0, =, d 
0,770, tn] 
Fori=1，…， K 


yecexp(o,)/ X exp(o,) 





vc, en yx] 
Until i i 








图 11-3 MFAAK>2 个 类 的 情况 ， 实 现 随机 梯度 下 降 的 感知 
器 训练 算法 。 这 是 图 10-8 中 给 出 的 算法 的 在 线 版 本 


(11.7) 和 (11.9) 式 都 具有 如 下 形式 
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更 新 = 学 习 因子 x (期 望 输出 - 实际 输出 ) x 输入 (11.10) 

让 我 们 更 深入 地 考察 上 式 。 首 先 ， 如 果实 际 输出 等 于 期 望 输出 ， 则 不 需要 更 新 。 当 进行 
更 新 时 ， 更 新 随 期 望 输出 与 实际 输出 的 差 增 加 而 增加 。 我 们 还 看 到 ， 如 果实 际 输出 小 于 期 望 
输出 ， 则 当 输 入 为 正 时 更 新 为 正 ， 输 入 为 负 时 更 新 为 负 。 这 具有 增加 实际 输出 和 降低 差别 的 
效果 。 如 果实 际 输出 大 于 期 望 输出 ， 则 当 输 入 为 正 时 更 新 为 负 ， 输 入 为 负 时 更 新 为 正 ; 这 就 
降低 了 实际 输出 ， 使 得 它 更 接近 于 期 望 输出 。 

在 做 更 新 时 ， 更 新 量 还 依赖 于 输入 。 如 果 输 入 接近 于 0， 则 它 对 实际 输出 的 影响 很 小 ， 
因此 其 权重 用 一 个 较 小 的 量 更 新 。 输 入 越 大 ， 其 权重 的 更 新 也 越 大 。 

最 后 ， 更 新 量 依赖 于 学 习 因子 n。 如 果 它 太 大 ， 则 更 新 过 分 依赖 当前 实例 ;就 像 系 统 只 
有 短期 记忆 。 如 果 该 因子 太 小 ， 则 可 能 需要 很 多 次 更 新 才 收 敛 。 在 11. 8. 1 节 ， 我 们 将 讨论 
加 快 收敛 的 方法 。 


11.4 学 习 布尔 函数 


在 布尔 函数 中 ， 输 入 是 二 元 的 ， 并 且 如 果 对 应 的 函数 值 为 真 则 输出 为 1， 否则 为 0。 这 
样 ， 它 可 以 看 作 两 类 分 类 问题 。 作 为 一 个 例子 ， 考 虑 学 习 AND 两 个 输入 ， 输 入 表 和 期 望 输 
出 显示 在 表 11-1 中 。 实 现 AND 的 感知 器 和 它 的 二 维 几何 表示 的 一 个 例子 显示 在 图 11-4 中 。 
判别 式 是 

y = s(x, +x, -1.5) 





“=+ x 为 


(0,00 ao 15 ñ 
图 11-4 实现 AND 的 感知 器 和 它 的 几何 表示 
也 就 是 说 zx=[1，x，m]7, w=[ -1.5，1，1]7。 注 意 ,y =s(xi +x, -1.5) 满 足 表 11-1 中 


AND 函数 定义 给 定 的 四 个 约束 条 件 。 例 如 ,对 于 x, =1, x, 70, y 25( -0.5) =0。 类 似 地 ， 
可 以 证 明 y = s(x, +x, -0.5) 实 现 OR, 


表 11-1 AND 函数 的 输入 和 输出 


^ n 
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尽管 像 AND 和 OR 这 样 的 布尔 函数 是 线性 可 分 的 ， 并 且 是 可 以 用 感知 器 求解 的 ， 但 是 
像 XOR 这 样 的 函数 不 是 。XOR 的 输入 和 期 望 输出 在 表 11-2 中 。 正 如 我 们 可 以 从 图 11-5 看 
到 的 ， 该 问题 不 是 线性 可 分 的 。 可 以 证 明 这 一 点 。 注 意 不 存在 w, w, 和 w, 的 值 满足 下 列 不 
等 式 : 


w <0 

w, +w >0 

w, +w, >0 

w, +w, +w <0 


* 


O 


x 
图 11-5 XOR 问题 不 是 线性 可 分 的 。 我 们 不 能 划一 条 直线 使 得 空心 圆 在 一 侧 ， 实 心 圆 在 另 一 侧 
表 11-2 XOR 函数 的 输入 和 输出 


* E 
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0 
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1 
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我 们 对 这 一 结果 并 不 奇怪 ， 因 为 (二 维 ) 直 线 的 VC 维 为 三 。 具 有 二 元 输入 ， 存 在 四 种 
情况 ， 因 此 我 们 知道 存在 具有 两 个 输入 的 问题 ， 它 们 不 能 用 直线 求解 ; XOR 就 是 其 中 
z—. 


11.5 多 层 感 知 器 


具有 单 层 权重 的 感知 器 只 能 允 近 输入 的 线性 函数 ， 不 能 解决 像 XOR 这 样 的 问题 ， 这 些 
问题 的 判别 式 是 非 线性 的 。 类 似 地 ， 这 种 感知 器 也 不 能 用 于 非 线性 回归 。 对 于 输入 和 输出 层 
之 间 存 在 中 间 层 或 隐藏 层 (hidden layer) 的 前 馈 网 络 ， 就 不 存在 这 种 局 限 性 。 如 果 用 于 分 类 ， 
这 种 多 层 感 知 器 (multilayer perceptrons, MLP) 可 以 实现 非 线性 判别 式 ， 而 如 果 用 于 回归 ， 可 
以 逼近 输入 的 非 线性 函数 。 

输入 x 提供 给 输入 层 ( 包 括 偏 倚 ),“ 活 性 ”向 前 传播 ， 并 计算 隐藏 单 元 的 值 (参见 
图 11-6)。 每 个 隐藏 单元 自身 都 是 一 个 感知 器 ， 并 将 非 线 性 的 S 形 函 数 作 用 于 它 的 加 
BA: 
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1 


irop- (evs ten) 


z, = sigmoid(wix) = h=1,=,H (11.11) 





x-H " x 
图 11-6 ”多 层 感知 器 结构 。x%5 (j=0，…，d) 是 输入 ，z,(h=1，…，HH) 是 隐 茂 单元， 其 中 万 是 隐藏 空间 的 维度 。 
s 是 隐藏 层 的 偏 倚 。7i(i= 1，…，K) 是 输出 单元 。ww 是 第 一 层 的 权重 ， 而 v。 是 第 二 层 的 权重 


输出 y, 是 在 第 二 层 的 感知 器 ， 取 隐藏 单元 作为 它们 的 输入 


$5 VE às + Up (11.12) 

其 中 隐藏 层 还 有 一 个 偏 倚 单 元 ， 记 作 am， 而 w 是 偏 倚 权 重 。 输 入 层 单元 x, 不 计 ， 因 为 计算 
不 在 那里 进行 ， 并 且 当 有 一 个 隐藏 层 时 ， 网 络 是 两 层 网 络 。 

与 通常 一 样 ， 在 回归 问题 中 ， 在 计算 y 的 输出 层 不 存在 非 线性 。 在 两 类 判别 式 任务 中 ， 
有 一 个 S 形 输出 单元 ， 并 且 在 存在 K> 2 个 类 时 ， 有 天 个 以 软 最 大 作为 输出 非 线性 的 输出 。 

如 果 隐 藏 层 单元 的 输出 是 线性 的 ， 则 隐藏 层 就 没有 用 : 线性 组 合 的 线性 组 合 还 是 一 种 线性 
组 合 。5 形 函数 是 取 阔 值 的 连续 、 可 微 版 本 。 我 们 需要 可 微 性 ， 因 为 我 们 将 看 到 学 习 方程 是 基 
于 梯度 的 。 另 一 种 可 以 使 用 的 S 形 非 线性 基 函 数 是 双 曲 正切 函数 tanh， 它 值 域 是 -1 到 +1， 而 
不 是 0 到 +1。 在 实践 中 ， 使 用 sigmoid 与 使 用 tanh 并 无 区 别 。 还 有 一 种 可 能 是 使 用 高 斯 函数 ， 
它 使 用 欧 氏 距离 而 不 是 用 点 积 表示 相似 性 ; 我 们 将 在 第 12 章 讨论 这 种 径 向 基 函 数 网 络 。 

输出 是 隐藏 层 单元 计算 的 非 线 性 基 函 数值 的 线性 组 合 。 可 以 说 隐藏 单元 做 了 一 个 从 d- 维 
输入 空间 到 隐藏 单元 生成 的 下 维 空间 的 非 线性 变换 ， 并 且 在 这 个 空间 中 ， 输 出 层 实 现 了 一 
个 线性 函数 。 

我 们 不 限于 只 有 一 个 隐藏 层 ， 而 是 可 以 将 更 多 的 、 具 有 自己 的 输入 权重 的 隐藏 层 放 置 在 
具有 S 形 隐藏 单元 的 第 一 个 隐藏 层 之 后 ， 从 而 计算 第 一 个 隐藏 单元 层 的 非 线性 函数 ， 实 现 输 
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人 的 更 复杂 的 函数 。 实 践 中 ， 人 们 很 少 构建 超过 一 个 隐藏 层 的 网 络 ， 因 为 分 析 多 个 隐藏 层 的 
网 络 相当 复杂 。 但 是 ， 有 时 隐藏 层 包含 的 隐藏 单元 太 多 时 ， 使 用 多 个 隐藏 层 可 能 是 明智 的 ， 
THE "Em" OMB, FE "Aum" BIA. 


11.6 MLP 作为 通用 逼近 器 


我 们 可 以 将 任意 布尔 函数 表示 成 合 取 的 析 取 ， 这 样 一 个 布尔 表达 式 可 以 用 一 个 具有 一 个 
隐藏 层 的 多 层 感知 器 实现 。 每 个 合 取 用 一 个 隐藏 单元 实现 ， 而 析 取 用 输出 单元 实现 。 例 如 ， 
x,XOR x, = (x,AND ~ x,)OR( ~ x, AND x,) 

前 面 我 们 已 经 看 到 如 何 使 用 感知 器 实现 AND 和 OR。 因 此， 两 个 感知 器 可 以 平行 地 实现 
两 个 AND， 而 另 一 个 感知 器 可 以 将 它们 OR 在 一 起 (参见 图 11-7) 。 我 们 看 到 ， 第 一 个 隐藏 
层 将 输入 从 (x,，x, ) 映 射 到 由 第 一 层 感 知 器 定义 的 (z, ，z,) 空间 。 注 意 ,输入 (0, 0) 和 (1， 
1) 都 被 映射 到 (z, ，z,) 空 间 的 (0，0) ， 使 得 在 第 二 个 空间 是 线性 可 分 的 。 








图 11-7 求解 XOR 问题 的 多 层 感知 器 。 隐 藏 单元 和 输出 单元 具有 阅 值 在 0 上 的 阐 值 活化 函数 


这 样 ， 在 二 元 情况 下 ， 对 于 输出 为 1 的 每 个 输入 组 合 ， 我 们 定义 一 个 隐藏 单元 ， 它 检查 
输入 的 这 个 特定 合 取 。 然 后 ， 输 出 单元 实现 析 取 。 注 意 ， 这 只 是 一 个 存在 性 证 明 ， 而 这 种 网 
络 可 能 不 现实 ， 因 为 当 存在 4 个 输入 时 ， 可 能 需要 多 达 2° 个 隐藏 单元 。 这 种 结构 实现 了 表 
查找 而 不 是 一 般 化 。 

我 们 可 以 将 这 些 扩展 到 输入 是 连续 值 的 情况 ， 并 且 类 似 地 证 明 具 有 连续 输入 和 输出 的 任何 
函数 都 可 以 用 多 层 感知 器 近似 。 使 用 两 个 隐藏 层 ， 通 用 盘 近 (universal approximation ) 的 证 明 很 
BA: 对 于 每 种 输入 或 区 域 ， 使 用 第 一 个 隐藏 层 上 的 隐藏 单元 ， 该 区 域 可 以 被 所 有 边 上 的 超 平 





1243. 
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面 所 界定 。 第 二 个 隐藏 层 的 单元 AND 它们 ， 围 住 该 区 域 。 然 后 ， 将 隐藏 单元 到 输出 单元 的 连 
接 权重 设置 为 期 望 的 函数 值 。 这 给 出 函数 的 分 段 常量 近似 (piecewise constant approximation ) ; 
这 对 应 忽略 泰勒 展开 式 中 除 常数 项 之 外 的 所 有 项 。 增 加 隐藏 单元 的 数量 ， 并 在 输入 空间 中 取 更 
细 的 栅 格 ， 可 以 提高 逼近 期 望 值 的 精度 。 注 意 ， 没 有 给 定期 望 的 隐藏 单元 个 数 的 形式 上 界 。 这 
种 性 质 只 是 确保 存在 一 个 解 ; 除 此 之 外 对 我 们 并 无 其 他 帮助 。 业 已 证 明 ， 具 有 一 个 隐藏 层 的 
MLP( 具 有 任意 个 数 的 隐藏 单元 ) 可 以 学 习 输入 的 任意 非 线性 函数 ( Hornik, 、Stinchcombe 和 
White 1989) 。 


11.7 后 向 传播 算法 


训练 多 层 感 知 器 与 训练 感知 器 一 样 ; 唯一 的 区 别 是 现在 的 输出 是 输入 的 非 线 性 函数 ， 这 
要 感谢 隐藏 单元 中 的 非 线 性 偏 倚 函 数 。 考 虑 把 隐藏 单元 作为 输入 ， 第 二 层 是 感知 器 ， 我 们 已 
经 知道 在 给 定 输入 2, 的 情况 下 ， 如 何 更 新 参数 ws。 对 于 第 一 层 权 重 w,， 我 们 使 用 链 规则 计 
算 梯度 : 
2E _ 2E Oy, Oy 
Ow, — dy, Óz, Ow, 
误差 就 像 从 输出 y 传 回 到 输出 一 样 ， 因 此 新 创 了 术语 后 向 传播 (backpropagation) ( Rumel- 
hart, Hinton 和 Williams 1986a) 。 


11.7.1 非 线性 回归 
让 我 们 首先 考虑 用 下 式 计算 的 (具有 单个 输出 的 ) 非 线性 回归 : 


f= t+ (11.13) 

其 中 办 CUL 10) CHE ZERA EREA E ARA GR ORE 
ECW |X) = LEG-Y» (11.14) 
第 二 层 是 以 隐 基 单元 为 输入 的 感知 器 并 且 我 们 使 用 最 小 二 乘 规则 来 更 新 第 二 层 的 权重 ， 
Av, = ad (908 (11.15) 


第 一 层 也 是 感知 器 ， 以 隐藏 单元 作为 输出 单元 ， 但 在 更 新 第 一 层 权重 时 ， 我 们 不 能 直接 
使 用 最 小 二 乘 规则 ， 因 为 对 于 这 些 隐 藏 单元， 我们 没有 指定 的 期 望 输出 。 这 正 是 链 规则 起 作 
用 的 地 方 。 我 们 有 


人 
hj 
-py Ea Hi 
tX y a 9v, 
uci) n Ma CSS 


EVA ayla GP 
= ny C -yl -i£)x (11.16) 
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前 两 项 的 乘积 (” -y')o, 就 像 隐藏 单 元 h 的 误差 项 。 误 差 向 后 传播 到 隐藏 单元 。(r' -y') 
是 输出 误差 ， 按 隐藏 单元 的 “责任 ”加 权 ， 由 其 权重 v 给 出 。 在 第 三 项 中 , z,(1 -z) 是 S 
形 函 数 的 导数 ，%; 是 加 权 和 关于 权重 ww 的 导数 。 注 意 ， 第 一 层 权重 的 改变 Aww 使 用 了 第 二 
层 的 权重 w。 因 此 ， 我 们 应 当 计算 两 层 的 改变 ， 并 更 新 第 一 层 的 权重 ， 然 后 使 用 第 二 层 权 重 
的 旧 值 更 新 第 二 层 的 权重 。 

最 初 ， 权 重 ww 和 v, 从 小 随机 值 ( 例 如 ， 区 间 [ -0.01，0.01] 中 的 值 ) 开 始 ， 使 得 S 形 函 
数 不 饱 和 。 规 范 化 输入 使 得 它们 都 具有 均值 0 和 单位 方差 并 且 具 有 相同 尺度 也 是 一 种 好 的 想 
法 ， 因 为 我 们 使 用 了 单个 参数 。 

使 用 这 里 给 定 的 学 习 方程 ， 对 于 每 个 模式 ， 我 们 计算 每 个 参数 改变 的 方向 和 改变 量 。 
在 批 学 习 (batch learning) ， 我 们 累积 所 有 模式 上 的 改变 ， 并 且 在 完全 扫描 了 整个 训练 集 之 
后 做 一 次 改变 ， 如 前 面 的 更 新 方程 所 示 。 训 练 集 中 所 有 模式 的 一 次 完整 扫描 称 作 一 个 周 
期 (epoch) 。 也 可 以 在 线 学 习 ， 每 个 模式 后 更 新 权重 ， 实 现 随机 梯度 下 降 。 在 这 种 情况 
下 ， 应 当选 择 较 小 的 学 习 因 子 7n， 并 且 应 当 以 随机 次 序 扫描 模式 。 因 为 数据 集中 可 能 有 类 
似 的 模式 ， 在 线 学 习 收 敛 较 快 ， 并 且 随 机 性 具有 增加 噪声 的 效果 ， 并 有 助 于 避免 陷 人 局 
部 极 小 。 

为 回归 训练 多 层 感知 器 的 一 个 例子 显示 在 图 11-8 中 。 随 着 训练 继续 ，MLP 拟 合 逐 渐 接 
近 底 层 函 数 ， 并 且 误 差 降低 (参见 图 11-9)。 图 11-10 显示 如 何 用 隐藏 单元 输出 的 和 形成 
MLP 拟 合 。 








-1.5 








Ais os o3 o2 oI o 0 o2 03 04 05 

图 11-8 样本 训练 数据 显示 为 “+”, JOB x ~UC-0.5, 0.5), 而 y =f) + 
N(O, 0.1), f(x) =sin(6x) 用 虚线 显示 。 图 中 绘制 了 100, 200 和 300 
个 周期 后 ， 具 有 两 个 隐藏 单元 的 MLP 的 拟 合 演变 








246 











162 HUE 
































n EM 
0 50 100 150 200 29 300 


图 11-9 作为 训练 周期 的 函数 ， 训 练 和 确认 集 上 的 均 方 误差 
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图 11-10 a) 第 一 层 上 隐藏 单元 权重 的 超 平面 ，b) 隐藏 单元 输出 c) BRATA HR DURS 
二 层 的 权重 。 纤 细 线 显示 的 两 个 S 形 隐藏 单元 ， 一 个 乘 以 负 权重 ， 相 加 时 实现 
放 起 。 使 用 更 多 的 隐藏 单元 可 以 得 到 更 好 的 近似 (参见 图 11-12) 
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还 可 以 有 多 个 输出 单元 。 在 这 种 情况 下 ， 同 时 学 习 多 个 回归 问题 。 我 们 有 


ne Drazi +9 (11.17) 
而 误差 是 
BOW. Ix) = LX X09» (11.18) 
批 更 新 规则 为 
As, = 03, Gi - 305 (11.19) 
Awy = 9D [EG] -2* (11.20) 


X Gi-Y) va FED ST B TE RUBUS OE, MEHREN 11-11 中 。 注 意 ， 在 这 种 
情况 下 ， 所 有 输出 单元 共享 相同 的 隐藏 单元 ， 因 此 使 用 相同 的 隐藏 表示 。 一 种 可 供 选择 的 方 
法 是 对 每 个 回归 问题 训练 一 个 多 层 感 知 器 ， 每 个 都 有 自己 的 隐藏 单元 。 








将 所 有 的 mw 和 ww 初始 化 为 rand( -0.01, 0.01) 
Repeat 
For 随机 次 序 下 所 有 的 (x',r') ex 
Forh=1, =, H 
a, s-sigmoid(wix!) 
Forizl, =, K 
node 
Forisl,--, K 
Av, =n(ri - X2 
Forh=1, =, H 
Av, =al E 0-3) 0 a) 
Forisl, =, K 
nev, + hv, 
Forhel, =, H 
wew, + Aw, 
Until dicat 








图 11-11 HRA KAA h (9 ARE B RE EMA. AMER 
FIT PIA [SECULI AC SJE th ) A K> 2 类 问题 (使 用 软 最 大 输出 ) 


11.7.2 两 类 判别 式 
在 只 有 两 个 类 时 ， 一 个 输出 单元 就 足够 了 : 


y= igmoid ( X +») (11.21) 
a 
它 近 似 P(C, 1x ) R PCC, |x!) = 1- y JA 10.7 节 中 ， 我 们 知道 在 此 情况 下 ， 误差 函数 是 
E(W,r|X) =- Brlogy +(1-r)log(l - y') (11.22) 
实现 梯度 下 降 的 更 新 方程 是 


Av, = 3 Y (c - Y) (11.23) 
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Aw, = nY (r - yv (1 = 2) x) (11.24) 
与 简单 感知 器 一 样 ， 回 归 和 分 类 的 更 新 方程 是 相同 的 (这 不 意味 它们 的 值 相 同 ) 。 
11.7.3 多 类 判别 式 


在 KK> 2 类 分 类 问题 中 ， 有 天 个 输出 





of = deat + ve (11.25) 
al 
并 且 我 们 使 用 软 最 大 指示 类 之 间 的 依赖 性 ， 即 它们 是 互 斥 的 和 穷 举 的 : 
y= oe (11.26) 
Lew of 
其 中 y 近似 PCC, | x) 。 误 差 函数 是 
E(W,V |X) =- DD r log y; (11.27) 
并 且 我 们 使 用 梯度 下 降 得 到 更 新 方程 : 
Av, = 33, (i - 05 (11.28) 
Av, = 3X [Dieu] - 0 (11.29) 


Richard 和 Lippmann(1991) 证 明 ， 给 定 一 个 足够 复杂 的 网 络 和 足够 的 训练 数据 ， 适 当 训 
练 的 多 层 感知 器 可 估计 后 验 概率 。 


11.7.4 多 个 隐藏 层 


正如 我 们 在 前 面 看 到 的 ， 可 以 有 多 个 隐藏 层 ， 每 个 具有 自己 的 权重 ， 并 将 S 形 函 数 作用 
于 它 的 加 权 和 。 对 于 回归 ， 假 设 我 们 有 一 个 多 层 感 知 器 ， 具 有 两 个 隐藏 层 ， 我 们 有 


5 
žu = sigmoid( whx) = sigmoid ( F ews + wn ) SR RU oe 
f 


"^ 
žu = sigmoid(wzz,) = sigmoid ( E was) ,1 = Lys Hy 
Hy 
yawn = Doty ty 


其 中 ww 和 wa 分 别 是 第 一 和 第 二 层 的 权重 ，zw 和 zx 分 别 是 第 一 和 第 二 个 隐藏 层 的 单元 ， 而 ， 
是 第 三 层 的 权重 。 训 练 这 种 网 络 是 类 似 的 ， 唯 一 的 区 别 在 于 ， 为 了 训练 第 一 层 的 权重 ， 我 们 
需要 后 向 传播 更 多 层 (习题 5) 。 


11.8 训练 过 程 


11.8.1 改善 收敛 性 


梯度 下 降 具 有 多 种 优点 。 它 简单 。 它 是 局 部 的 ， 即 权重 的 改变 只 使 用 前 后 突 触 单元 和 误 
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差 (适合 后 向 传播 ) 的 值 。 当 使 用 在 线 训练 时 ， 它 不 需要 存储 训练 集 ， 并 且 可 以 自 适应 学 习 
任务 的 变化 。 由 于 这 些 原因 ， 它 可 以 (并 且 已 经 ) 用 硬件 实现 。 但 是 ， 就 自身 而 言 ， 梯 度 下 
降 收敛 很 慢 。 当 学 习 时 间 很 重要 时 ， 可 以 使 用 更 复杂 的 优化 方法 ( Battiti 1992 ) Bishop 
(1995) 详细 讨论 了 多 层 感知 器 训练 的 共 思 梯度 的 应 用 和 二 阶 方法 。 然 而 ， 有 两 种 频繁 使 用 
的 简单 技术 ， 可 以 显著 地 改善 梯度 下 降 的 性 能 ， 使 得 基于 梯度 的 方法 在 实际 应 用 中 是 可 
行 的 。 

动量 


令 w 为 多 层 感知 器 任意 层 中 的 任意 权重 ， 包 括 偏 傈 。 在 每 次 参数 更 新 ， 相 继 的 Aw; 可 
能 很 不 相同 以 至 于 可 能 出 现 摆动 ， 减 缓 收 剑 。: 为 时 间 指数 ， 是 批 学 习 的 周期 数 和 在 线 学 习 
的 选 代 次 数 。 基 本 思想 是 在 当前 的 改变 中 考虑 上 一 次 的 更 新 ， 取 移动 平均 ， 就 好 像 因 上 次 更 
新 而 存在 动量 (momentum ) : 


Avi == 0 + asui (11.30) 


通常 ，a 在 0.5 和 1.0 之 间 取 值 。 当 使 用 在 线 学 习 时 ， 这 种 方法 特别 有 用 。 我 们 将 得 到 
平均 和 光滑 收敛 轨迹 的 效果 。 缺 点 是 需要 将 过 去 的 Aw! 存放 在 附加 的 存储 中 。 


自 适应 学 习 率 


在 梯度 下 降 中 ， 学 习 因 子 决定 参数 的 改变 量 。 它 通常 在 0.0 到 1. 0 之 间 取 值 ; 大 部 分 
情况 下 小 于 或 等 于 0.2。 为 了 更 快 收 剑 ， 可 以 让 它 自 适应 。 学 习 进 行 时 它 保持 较 大 ， 学 习 减 
慢 时 它 也 减 小 : 

us *a A ESE (11.31) 
-bn 否则 
这 样 ， 如 果 训 练 集 上 的 误差 减 小 ， 则 7 增加 一 个 常量 ; RR IK, Won Uh. HF E 
可 能 从 一 个 周期 到 另 一 个 周期 震荡 ， 因 此 最 好 用 过 去 几 个 周期 的 平均 值 作为 E'。 


11. 8.2 过 分 训练 


有 具有 dd 个 输入 、H 个 隐藏 单元 、K 个 输出 的 多 层 感知 器 的 第 一 层 有 H(d +1) 个 权重 ,第 
二 层 有 KK(H+1) 个 权重 。MLP 的 时 间 和 空间 复杂 度 都 是 O( 互 : (K+d)). He 表示 训练 周期 
数 ， 则 训练 时 间 复 杂 度 为 O(e - H (K+d))。 

在 一 个 应 用 中 ，d 和 是 预先 确定 的 ，H 是 参数 ， 我 们 用 它 来 调整 模型 的 复杂 性 。 从 前 
面 的 章节 中 我 们 知道 ， 过 于 复杂 的 模型 记 住 了 训练 集中 的 噪声 ， 不 能 泛 化 到 确认 集 。 例 如 ， 
先前 我 们 在 多 项 式 回归 中 已 经 看 到 这 种 现象 ， 在 那里 我 们 看 到 噪声 或 小 样本 的 出 现 增加 了 多 
项 式 的 阶 ， 导致 更 糟糕 的 泛 化 。 类 似 地 ， 在 MLP 中 ， 当 隐藏 单元 数 很 大 时 ， 泛 化 精度 恶化 
(参见 图 11-12) ， 并 且 像 任何 统计 学 估计 一 样 ， 对 于 MLP， 也 存在 偏 倚 /方差 的 两 难 选择 
(Geman, Bienenstock 和 Doursat 1992) 。 
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隐藏 单元 数 
图 11-12 随 着 复杂 度 增加 ， 训 练 误 差 固定 但 确认 误差 开始 增加 ， 网 络 开始 过 分 拟 合 

当 训练 时 间 过 长 时 ， 类 似 的 事情 也 会 发 生 : 随 着 训练 周期 的 增加 ， 训 练 集 上 的 误差 降 
低 , 但 是 当 超过 某 一 点 时 ， 确 认 集 上 的 误差 开始 增加 (参见 图 11-13) 。 回 忆 一 下 ， 最 初 所 有 
的 权重 都 接近 于 0， 因 此 影响 很 小 。 随 着 训练 继续 进行 ， 大 部 分 重要 的 权重 开始 离开 0 并 发 
| 挥 作用 。 但 是 ， 如 果 训 练 一 直 继续 ， 得 到 训练 集 上 越 来 越 小 的 误差 ， 几 乎 所 有 的 权重 都 被 更 
新 ， 远 离 0 成 为 有 效 的 参数 。 这 样 ， 随 着 训练 继续 进行 ， 就 像 将 新 的 参数 添加 到 系统 中 一 
样 ， 增 加 了 系统 的 复杂 度 ， 导 致 精 糕 的 泛 化 。 学 习 应 当 在 不 是 太 晚 时 停止 ， 以 减轻 过 分 训练 
(overtraining) 问题。 停止 训练 的 最 佳 点 和 最 佳 隐藏 单元 数 通过 交叉 确认 确定 ， 这 涉及 在 训练 

期 间 未 曾 见 过 的 确认 集 上 测试 网 络 的 性 能 。 
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图 11-13 随 着 训练 继续 进行 ， 确 认 误差 开始 增加 ,网络 开始 过 分 拟 合 
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HPAP ETE, TRAE EAS Ah, TTB BEF EE ABN. NT fa 
获得 期 望 的 误差 ， 通 常 以 不 同 的 初始 权重 开始 ， 对 相同 的 网 络 训练 多 次 ， 并 且 计算 确认 误差 
的 平均 值 。 


11. 8.3 构造 网 络 


在 某 些 应 用 中 ， 我 们 可 能 相信 输入 具有 局 部 结构 。 例 如 ， 在 视频 中 ， 我 们 知道 邻近 的 像 
素 是 相关 的 ， 并 且 存 在 诸如 边 、 角 等 局 部 特征 。 任 何 对 象 ， 如 手写 体 数字 ， 都 可 以 定义 为 这 
些 图 元 的 组 合 。 类 似 地 ， 在 语音 中 ， 存 在 时 间 局 部 性 ， 并 且 时 间 上 相近 的 输入 可 能 组 成 语音 
基 元 。 组 合 这 些 基 元 ， 可 以 定义 较 长 的 话语 ， 如 语音 音素 。 在 这 种 情况 下 ， 在 设计 MLP 时 ， 
并 不 是 将 隐藏 单元 连接 到 所 有 的 输入 单元 ， 因 为 并 非 所 有 的 输入 都 是 相关 的 。 替 换 地 ， 我 们 
定义 隐藏 单元 ， 它 在 输入 空间 上 定义 一 个 输入 窗口 ， 并 且 仅 与 输入 的 一 个 小 的 局 部 子 集 相连 
接 。 这 样 做 减少 了 连接 数 ， 从 而 减少 了 自由 参数 的 数目 ( Le Cun 等 1989) 。 

我 们 可 以 在 相继 层 重复 这 一 做 法 ， 直 到 输出 层 。 每 层 连接 下 一 层 的 少量 局 部 单元 ， 并 且 
通过 组 合 下 面 输入 空间 的 较 大 部 分 ， 检 测 更 复杂 的 特征 ， 直 到 输出 单元 (参见 图 11-14)。 例 
如 ， 输 入 可 能 是 像素 。 通 过 观察 像素 ， 第 一 个 隐藏 层 的 单元 可 以 学 习 检测 各 方向 的 边 。 然 
后 ， 通 过 组 合 一 些 边 ， 第 二 个 隐藏 层 的 单元 可 以 学 习 检 测 边 的 组 合 (例如 弧 、 角 、 线 段 ) ， 
并 且 在 较 高 层 组 合 它们 。 这 些 单元 可 以 寻找 半圆 、 和 矩形 ， 或 者 在 脸 部 识别 应 用 中 ， 寻 找 眼 、 
嘴 等 。 这 是 层次 锥 体 ( hierarchical cone) 的 一 个 例子 ， 随 着 我 们 沿 着 网 络 向 上 直到 我 们 得 到 
类 ， 特 征 越 来 越 复杂 、 抽 象 ， 并 且 数量 越 来 越 少 。 





图 11-14 一 个 结构 化 的 MLP。 每 个 单元 都 连接 到 其 下 单元 的 一 个 局 部 组 群 ， 
并 检测 一 个 特定 的 特征 (例如 视频 中 的 边 、 角 等 ) 。 每 个 区 域 只 显示 
了 一 个 隐 茂 单元。 通常， 有 许多 隐藏 单元 ， 检 测 不 同 的 局 部 特征 


在 这 种 情况 下 ， 我们 可 以 通过 权重 共享 ( weight sharing) 进一步 减少 参数 的 数目 。 再 次 以 
视频 识别 为 例 ， 我 们 可 以 看 到 : 在 我 们 寻找 类 似 有 向 边 这 样 的 特征 时 ， 它 们 可 能 出 现在 输入 
空间 的 不 同 部 分 。 因 此 ， 替 代 定义 独立 的 隐藏 单元 学 习 输入 空间 不 同 部 分 的 不 同 特征 ， 我 们 
可 以 有 考察 输入 空间 不 同 部 分 的 相同 隐藏 单元 的 拷贝 (参见 图 11-15) 。 在 学 习 期 间 ， 我 们 取 
不 同 的 输入 计算 梯度 ， 然 后 对 它们 取 平均 值 ， 并 做 单个 更 新 。 这 意味 单个 参数 定义 多 个 连接 
上 的 权重 。 此 外 ， 由 于 一 个 权重 上 的 更 新 基于 多 个 输入 的 梯度 ， 因 此 训练 集 实际 上 就 像 有 许 
多 个 。 
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图 11-15“ 在 权重 共享 中 ， 不 同 的 单元 具有 到 不 同 输入 的 连接 ， 但 是 共享 相同 的 权重 值 
(用 线 型 表示 ) 。 只 显示 了 一 组 单元 ; 应 当 有 多 组 单元 ， 每 个 检测 不 同 的 特征 


11.8.4 线索 


局 部 结构 的 知识 使 得 我 们 可 以 预先 构造 多 层 网 络 ， 并 且 使 用 权重 共享 ， 使 得 它 具 有 较 少 
的 参数 。 具 有 全 连接 层 的 MLP 不 具有 这 种 结构 ， 并 且 更 难 训练 。 可 能 的 话 ， 与 应 用 相关 的 
任何 类 型 的 知识 都 应 当 构建 到 网 络 结构 中 。 这 些 称 作 线索 (hints) ( Abu- Mostafa 1995) 。 它 们 
是 我 们 知道 的 目标 函数 的 性 质 ， 独 立 于 训练 实例 。 

在 图 像 识 别 ， 存 在 一 些 不 变性 线索 : 对 象 旋转 、 变 换 或 缩放 时 ， 它 的 恒 等 性 不 变 (参见 
图 11-16) 。 线 索 是 辅助 信息 ， 可 以 用 来 指导 学 习 过 程 ， 并 且 在 训练 集 有 限时 特别 有 用 。 使 
用 线索 可 以 有 不 同 的 方法 : 





图 11-16 当 对 象 变换 、 旋 转 或 缩放 时 ， 它 的 恒 等 性 不 变 。 注 意 这 并 非 总 是 为 真 ， 或 者 可 能 在 某 种 程度 
为 真 :“b” 和 “9q” 互 为 旋转 版 本 。 这 些 是 可 以 纳入 到 学 习 过 程 中 使 学 习 更 容易 的 线索 


1. 可 以 使 用 线索 创建 虚拟 实例 (virtual example) 。 例 如 ， 知 道 对 象 是 缩放 不 变 的 ， 由 给 
定 的 训练 实例 ， 我 们 可 以 用 不 同 的 尺寸 产生 多 个 拷贝 ， 并 以 相同 的 类 标号 将 它们 添加 到 训练 
集中 。 这 样 做 的 优点 是 增 大 了 训练 集 并 且 不 需要 对 学 习 方法 做 任何 修改 。 问 题 可 能 是 对 于 学 
习 方 法 ， 可 能 需要 太 多 实例 来 学 习 不 变性 。 

2. 不 变性 可 以 作为 预 处 理 阶 段 实现 。 例 如 ， 光 学 字符 读 人 器 可 以 有 一 个 预 处 理 步 
又 ， 将 输入 字符 的 图 像 关于 尺寸 和 倾斜 进行 中 心 化 和 规范 化 。 当 可 行 时 ， 这 是 最 简单 
的 解决 方案 。 

3. 线索 可 以 纳入 到 网 络 结构 中 。 我 们 在 11. 8. 3 节 看 到 的 局 部 结构 和 权重 共享 就 是 一 个 
例子 ， 那 里 我 们 对 小 变换 和 旋转 得 到 不 变性 。 

4. 也 可 以 通过 修改 误差 函数 纳入 线索 。 假 设 我 们 知道 从 应 用 角度 来 说 x 和 x' 是 相同 的 ， 
其 中 交 是 上 的 “虚拟 实例 ”。 也 就 是 说 ， 当 大 zx) 是 我 们 要 逼近 的 函数 时 ，F(z) = f(x"). ik 
我 们 用 g(x | 6) 表示 我 们 的 逼近 函数 ， 例 如 MLP, Hp 9 是 它 的 权重 。 然 后 ， 对 于 所 有 这 样 
的 (x，x')， 我 们 定义 罚 函 数 

E, = [ge(x|0) - g(x' |0) ]? 
并 把 它 作为 一 个 额外 项 加 到 通常 的 误差 函数 中 : 
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E' =E +à," E, 
这 是 一 个 罚 项 ,处 罚 预 测 不 服从 线索 的 案例 ， 而 入, 是 这 种 罚 的 权重 (Abu-Mostafa 1995) 。 
另 一 个 例子 是 近似 线索 : 假设 对 于 x， 我 们 不 知道 准确 的 f(x) 值 ， 但 是 我 们 知道 它 在 区 
间 [a,，6,] 中 ， 则 我 们 添加 的 罚 项 是 : 


0 如 果 g(x|10)e[a,, b,] 
E,-((g(x)-a,)! — dX g(x|0) <a, 
(g(x)-b,) wR g(x] 0) »b, 


这 类 似 于 支持 向 量 机 回归 中 使 用 的 误差 函数 (10. 9.4 节 ) ， 它 容忍 小 近似 误差 。 

还 有 一 个 例子 是 正切 支撑 (tangent prop) (Simard 等 1992) ， 其 中 变换 与 我 们 定义 的 线索 
相对 。 例 如 ， 旋 转 一 个 角度 用 一 个 函数 建 模 。 通 常 的 误差 函数 被 修改 (添加 另 一 个 项 ) ， 使 
得 参数 可 以 沿 着 这 条 变换 线 移 动 而 不 改变 误差 。 


11.9 调整 网 络 规模 


前 面 ， 我 们 看 到 ， 当 网 络 太 大 ， 具 有 太 多 自由 参数 时 ， 泛 化 可 能 不 好 。 为 了 找到 最 佳 网 
络 规模 ， 最 常用 的 方法 是 尝试 不 同 的 结构 ， 在 训练 集 上 训练 它们 ， 并 选择 对 确认 集 泛 化 最 好 
的 结构 。 另 一 种 方法 是 将 结构 自 适应 (structural adaptation) 合并 到 学 习 算 法 中 。 有 两 种 方法 
可 以 做 这 件 事 : 

l. 在 破坏 性 (destructive) 方法 中 ， 我 们 从 一 个 大 网 络 开始 ， 逐 步 删 除 不 必要 的 单元 和 / 
或 连接 。 

2. 在 建设 性 (constructive) 方法 中 ， 我 们 从 一 个 小 网 络 开始 ， 逐 步 增加 改善 性 能 的 单元 
和 /或 连接 。 

一 种 破坏 性 方法 是 权 衰减 (weight decay) ， 其 基本 思想 是 删除 不 必要 的 连接 。 理 想 情况 
下 ， 为 了 能 够 确定 一 个 单元 或 连接 是 否 必要 ， 我 们 需要 使 用 它 训练 一 次 ， 不 使 用 它 训练 一 
次 ， 并 检查 独立 的 确认 集 上 的 误差 之 差 。 这 种 开销 很 大 ， 因 为 这 件 事 需 要 在 单元 /连接 的 所 
有 组 合 上 做 。 

假设 如 果 一 个 连接 的 权重 为 0， 则 没有 使 用 它 。 我 们 给 每 个 连接 一 个 衰减 到 0 的 趋势 ， 
使 得 它 除非 为 了 降低 误差 而 被 明显 地 加 强 ， 否 则 就 将 消失 。 对 于 网 络 中 的 任意 权重 w, R 
们 使 用 更 新 规则 : 


Am = -ne - Au (11.32) 


这 等 价 于 在 具有 一 个 附加 的 罚 项 的 误差 函数 上 做 梯度 下 降 ， 惩 罚 具 有 许多 非 零 权重 的 
网 络 : 


" A 
EIESYE (11.33) 


较 简 单 的 网 络 是 较 好 的 泛 化 器 暗示 我 们 通过 增加 一 个 罚 项 实现 。 注 意 ， 我 们 并 不 是 说 简 
单 的 网 络 总 是 比 大 网 络 好 ; 我 们 是 说 如 果 我 们 有 两 个 具有 相同 的 训练 误差 的 网 络 ， 则 较 简 单 
的 那个 ( 即 具有 较 少 权重 的 那个 ) 有 较 高 的 可 能 性 更 好 地 泛 化 到 确认 集 上 。 

(11. 32) 式 中 第 二 项 的 效果 像 一 个 弹簧 ， 将 每 个 权重 拉 向 0。 从 一 个 接近 于 0 的 值 开始 ， 
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除非 实际 误差 的 梯度 很 大 并 导致 更 新 ， 否 则 由 于 第 二 项 ， 权 重 将 逐渐 衰减 为 0。A 是 参数 ， 
决定 训练 集 上 误差 和 由 于 非 零 参数 导致 的 复杂 性 的 相对 重要 性 ， 因 此 决定 衰减 速度 : 使 用 大 
的 人， 无 论 训练 误差 多 大 ， 权 重 将 被 拉 向 0; 使 用 小 的 入， 对 非 零 权重 的 罚 不 大 。 使 用 交叉 
确认 对 A 进行 微调 。 

取代 从 大 网 络 开始 并 前 去 不 必要 的 连接 或 单元 ， 我 们 也 可 以 从 小 网 络 开始 ， 必 要 时 添加 
单元 和 相关 的 连接 (参见 图 11-17) 。 在 动态 节点 创建 (dynamic node creation) ( Ash 1989) 中 ， 
训练 具有 一 个 隐藏 层 和 一 个 隐藏 单元 的 网 络 ， 收 敛 后 如 果 误 差 仍 然 很 高 ， 则 添加 一 个 单元 。 
随机 初始 化 新 添加 的 单元 的 输入 权重 和 输出 权重 并 与 先前 存在 的 权重 一 起 训练 。 先 前 存在 的 
权重 不 再 重新 初始 化 ， 并 从 先前 的 值 开 始 。 





动态 节点 创建 级 联 相关 
图 11-17 建设 性 方法 的 两 个 例子 : 动态 节点 创建 向 一 个 已 存在 的 隐藏 层 添加 一 个 
单元 。 级 联 相关 添加 每 个 单元 作为 新 的 隐藏 层 ， 连 接 到 前 面 的 所 有 层 。 
虚线 表示 新 增加 的 单元 /连接 。 为 清晰 起 见 ， 忽 略 了 偏 倚 单 元 /权重 


在 级 联 相关 (cascade correlation) 中 (Fahlman 和 Lebiere 1990) ， 每 个 添加 的 单元 是 另 一 个 
隐藏 层 中 的 新 的 隐藏 单元 。 每 个 隐藏 层 只 有 一 个 单元 连接 到 它 前 面 所 有 隐藏 单元 和 输入 。 已 
存在 的 权重 被 冻结 ， 不 再 训练 ， 只 训练 新 添加 的 单元 的 输入 和 输出 权重 。 

动态 节点 创建 在 已 经 存在 的 隐藏 层 中 创建 一 个 新 的 隐藏 单元， 而 不 增加 新 的 隐藏 层 。 级 
联 关联 总 是 创建 具有 单个 单元 的 隐藏 层 。 理 想 的 建设 性 方法 应 当 能 够 决定 何 时 引进 一 个 新 的 
隐藏 层 ， 何 时 向 已 有 的 隐藏 层 添加 新 单元 。 这 是 一 个 尚 待 解决 的 研究 问题 。 

增 量 算法 很 有 趣 ， 因 为 它 在 训练 阶段 不 仅 修改 参数 ， 而 且 修改 模型 结构 。 类 似 的 思想 可 
以 用 于 多 项 式 回归 ， 其 中 高 阶 项 在 训练 阶段 自动 地 添加 /删除 ， 使 得 模型 的 复杂 度 与 数据 的 
复杂 度 相 适 应 。 随 着 计算 费用 逐渐 降低 ， 这 种 自动 的 模型 选择 将 成 为 学 习 过 程 的 一 部 分 自动 
地 进行 ， 而 不 需要 用 户 干预 。 


11. 10 学习 的 贝 叶 斯 观点 


贝 叶 斯 方法 在 训练 神经 网 络 时 将 参数 ( 即 连接 权重 w,) 看 作 取 自 先 验 分 布 p(w,) 的 随机 变 
量 ， 并 计算 给 定数 据 的 后 验 概率 
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_ PX) p(w) 


p(w |X) = 一 一 一 一 一 (11.34) 
P(x) 
其 中 w 是 网 络 的 所 有 权重 的 向 量 。MAP 估计 w 为 后 验 的 众 数 
Dup = arg maxlogp(w |x) (11.35) 


取 (11. 34) 式 的 对 数 ， 我 们 得 到 
logp(w |X) = logp(X |w) +logp(w) + C 
右边 的 第 一 项 是 对 数 似 然 ， 而 第 二 项 是 先 验 概率 的 对 数 。 如 果 权重 是 独立 的 ， 并 且 先 验 概率 
取 作 高 斯 分 布 N(0，1/2A) 


p(w) = IIe(w) RP pO) = e+ exp[ - 


则 MAP 估计 最 小 化 增 广 的 误差 函数 
E =E+Aljwil? (11.37) 

HEP E Jy 38 t 66 Sh AS R IL URL UR 3 C AY BAAD YR) oA UR XE IE E R AT) s BUE EL 
(11.33 式 ) 中 使 用 的 误差 函数 。 使 用 较 大 的 A 意味 较 小 的 参数 可 变性 ， 对 它们 施加 更 大 的 力 
量 ， 使 之 接近 于 0， 并且 更 多 地 考虑 先 验 而 不 是 数据 ; 如 果 和 较 小 ， 则 允许 较 大 的 参数 可 变 
性 。 这 种 删除 不 必要 的 参数 的 方法 在 统计 学 中 称 作 岭 回归 (ridge regression) 。 

这 是 使 用 代价 函数 、 结 合 对 数据 的 拟 合 和 模型 复杂 度 正 则 化 (regularization ) 的 另 一 个 
例子 


us 
7535] (11.36) 


代价 = 数据 错 拟 合 + 入 ,复杂 度 (11.38) 

MacKay(1992a, b) 讨论 了 在 训练 多 层 感 知 器 时 使 用 贝 叶 斯 估计 。 

经 验 表明 ， 训 练 后 ， 多 层 感知 器 的 大 部 分 权重 都 围绕 0 正 态 分 布 ， 证 明 使 用 权重 衰减 是 
正确 的 。 但 是 ， 也 并 非 总 是 这 种 情况 。Nowlan 和 Hinton(1992) 提出 了 软 权重 共享 (soft weight 
sharing) ， 其 中 权重 取 自 混合 高 斯 分 布 ， 允 许 它们 形成 多 个 而 不 是 一 个 徐 。 此 外 ， 这 些 秘 的 
中 心 可 以 在 任何 地 方 ， 而 不 必 在 0， 并 且 具 有 可 以 修改 的 方差 。 这 将 (11.36) 式 的 先 验 概率 
改变 成 M2 个 高 斯 混合 


p(w) = Bp) (11.39) 
f 
其 中 w 是 优先 权 ,p,(w,) ~N(m,, s) EMMA. MAP EE, T jm, 和 s 从 数据 中 


学 习 。 在 训练 阶段 使 用 这 种 先 验 并 用 它 的 对 数 增 广 误差 函数 ， 权 重 收敛 以 降低 误差 ,并 且 还 
自动 地 分 组 以 提高 对 数 先 验 。 


11. 11 维度 归 约 i 

在 多 层 感 知 器 中 ， 如 果 隐 藏 单 元 数 小 于 输入 数 ， 则 第 一 层 执行 维度 归 约 。 这 种 归 约 起 
和 隐藏 单元 生成 的 新 空间 依赖 于 MLP 的 训练 目的 。 如 果 MLP 用 来 分 类 ， 输 出 单元 紧 随 隐藏 
层 ， 则 定义 了 新 空间 并 且 学 习 该 映射 ， 以 降低 分 类 误差 (参见 图 11-18) 。 
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隐藏 单元 2 











隐藏 单元 1 
图 11-18 绘制 在 用 于 分 类 的 训练 后 的 MLP 的 两 个 隐藏 单元 的 空间 中 的 Optdigits 数据 。 只 显示 了 100 个 数 
据点 的 标号 。 该 MLP 具有 64 个 输入 ，2 个 隐藏 单元 和 10 个 输出 ， 具 有 80% 的 准确 率 。 由 于 S 
形 函 数 ， 隐 藏 单元 的 值 在 0 和 1 之 间 ， 并 且 类 在 角落 附近 聚集 。 可 以 将 该 图 与 第 6 章 的 图 比 
较 。 第 6 章 的 图 在 相同 的 数据 集 上 使 用 其 他 维度 归 约 方法 绘制 

通过 分 析 权重 ， 我 们 可 以 明白 MLP 是 做 什么 的 。 我 们 知道 当 两 个 向 量 相等 时 点 积 最 大 。 
因此 ， 我 们 可 以 认为 每 个 隐藏 单元 定义 了 其 输入 权重 的 模板 ， 并 通过 分 析 这 些 模板 ， 我 们 可 
以 从 训练 后 的 MLP 中 提取 知识 。 如 果 输 入 是 规范 化 的 ， 则 权重 告诉 我 们 它们 的 相对 重要 性 。 

这 样 的 分 析 并 不 容易 ， 但 是 让 我 们 洞察 到 MLP 在 做 什么 ， 并 使 得 我 们 可 以 疯 视 黑箱 。 
一 种 有 趣 的 结构 是 自动 关联 器 (autoassociator) ( Cottrell, Munro 和 Zipser 1987) 。 这 是 一 
种 MLP 结构 ， MEMES RAS, Oe ee ee 11-19), 







线性 


图 11-19 在 自动 关联 器 中 ， 输 出 与 输入 一 样 多 并 且 期 望 的 输出 是 输入 。 当 隐藏 单元 的 数目 小 于 
输入 的 数目 时 ， 则 MLP 被 训练 以 发 现 输入 在 隐藏 层 上 的 最 佳 编 码 ， 实 现 维度 归 约 。 左 
边 ， 第 一 层 充当 编码 器 ， 而 第 二 层 充当 解码 器 。 右 边 ， 如 果 编 码 器 和 解码 器 是 具有 S 
形 隐藏 单元 的 多 层 感知 器 ， 则 网 络 进行 非 线性 维度 归 约 
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为 了 能 够 在 输出 层 重新 产生 输入 ，MLP 被 迫 找 出 输入 在 隐藏 层 的 最 佳 表 示 。 当 隐藏 单元 数 
小 于 输入 数 时 ， 这 意味 着 维度 归 约 。 一 旦 训练 完成 ， 从 输入 到 隐藏 层 的 第 一 层 充当 编码 器 ， 
而 隐藏 单元 的 值 形成 编码 表示 。 从 隐藏 单元 到 输出 单元 的 第 二 层 充当 解码 器 ， 由 原 信号 的 编 
码 表示 重 构 原 信号 。 

已 经 证 明 ( Bourlard 和 Kamp 1988) ， 具 有 一 个 隐藏 层 的 MLP 实现 主 成 分 分 析 (6.3 节 )， 
不 同 之 处 在 于 隐藏 单元 的 权重 不 是 使 用 本 征 值 按 重要 性 排序 的 本 征 向 量 , 但 是 它 与 有 个 主 
要 本 征 向 量 生成 相同 的 空间 。 如 果 编 码 器 和 解码 器 不 是 一 层 ， 而 是 在 隐藏 单元 具有 S 形 非 线 
性 的 多 层 感知 器 ， 则 编码 器 实现 非 线性 的 维度 归 约 。 

另 一 种 使 用 MLP 进行 维度 归 约 的 方法 是 通过 多 维 定 标 (6.5 节 ) Mao 和 Jain(1995 ) 展 
示 了 如 何 使 用 MLP 学 习 Sammon 映射 (Sammon mapping) 。 回 忆 (6.29) 式 ，Sammon 应 力 定 
义 为 
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一 个 具有 4 PRA, HPT AL km d 个 输出 单元 的 MLP 用 来 实现 g(x | 0), 将 
4- 维 输入 映射 到 一 个 k- 维 向 量 ， 其 中 9 对 应 于 MLP 的 权重 。 给 定 一 个 数据 集 X = |x'|,， 我 
们 可 以 使 用 梯度 下 降 直 接 最 小 化 Sammon 应 力 来 学 习 MLP( 即 g(x | 8) ) ， 使 得 磊 维 表示 之 间 
的 距离 与 原 空 间 中 的 距离 尽 可 能 接近 。 


11. 12 学 习 时 间 


到 目前 为 止 ， 我 们 一 直 关注 输入 一 次 全 部 提供 的 情况 。 在 某 些 应 用 中 ， 输 入 是 时 间 性 数 
据 ， 我 们 需要 学 习 时 间 序 列 。 换 句 话说 ， 输 出 也 可 能 随时 间 变 化 。 例 子 有 

m 序列 识别 (sequence recognition) 。 这 是 把 给 定 的 序列 指派 到 多 个 类 中 的 一 个 。 语 音 识 
别 是 一 个 例子 ， 其 中 输入 信号 序列 是 口语 语音 ， 而 输出 是 词 的 编码 。 即 输入 随时 间 
变化 ， 但 输出 不 随时 间 变 化 。 

= 序列 复制 ( sequence reproduction) 。 这 里 ， 在 看 到 给 定 序列 的 一 部 分 之 后 ， 系 统 将 预 
测 其 余部 分 。 时 间 序 列 产生 是 一 个 例子 ， 那 里 输入 是 给 定 的 ， 但 输出 是 变化 的 。 

= 时 间 关 联 (temporal association)。 这 是 最 一 般 的 情况 ， 其 中 特定 的 输出 序列 作为 特定 
的 输入 序列 之 后 的 输出 。 输 入 和 输出 序列 可 能 不 同 。 这 里 ， 输 入 和 输出 都 随时 间 
变化 。 


(11.40) 


11.12.1 时间 延迟 神经 网 络 


识别 时 间 序 列 的 最 简单 的 方法 是 把 它 转换 成 空间 序列 。 然 后 可 以 利用 前 面 讨论 的 任意 方 
法 进行 分 类 。 在 时 间 延 迟 神经 网 络 ( time delay neural network) 中 ( Waibel 等 1989) ， 前 面 的 输 
入 被 延迟 ， 以 便 与 最 后 的 输入 同步 ， 一 起 作为 输入 提交 系统 (参见 图 11-20) 。 然 后 ， 使 用 后 
向 传播 训练 权重 。 为 了 提取 局 部 于 时 间 的 特征 ,我 们 可 以 使 用 结构 化 的 连接 层 和 权重 共享 ， 
以 便 得 到 时 间 的 变换 不 变性 。 这 种 结构 的 主要 限制 是 我 们 滑 过 的 序列 的 时 间 窗 口 大 小 应 当 预 
先 固定 。 
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图 11-20 一 个 时 间 延 迟 网 络 。 长 度 为 了 的 时 间 窗 口中 的 输入 被 延迟 ， 
直到 我 们 可 以 将 所 有 7 个 输入 作为 输入 向 量 提供 给 MLP 


11. 12.2 递归 网 络 


在 递归 网 络 ( recurrent network) 中， 除了 前 馈 连 接 之 外 ， 单 元 具有 自 连接 或 到 前 面 层 的 
连接 。 这 种 递归 性 充当 短期 记忆 ， 并 使 得 网 络 记 住 过 去 发 生 的 事 。 

在 大 部 分 情况 下 ， 我 们 使 用 部 分 递归 网 络 ， 其 中 有 限 多 个 递归 连接 被 添加 到 多 层 感知 器 
中 (参见 图 11-21) 。 这 结合 了 多 层 感知 器 的 非 线性 逼近 能 力 和 递归 的 时 间 表 达能 力 的 优点 ， 
并 且 这 样 的 网 络 可 以 用 来 实现 三 种 时 间 关 联 任务 中 的 任何 一 种 。 还 可 以 在 递归 的 后 向 连接 中 
具有 隐藏 单元 ， 这 些 称 作 上 下 文 单元 (context unit) 。 给 定 具体 应 用 ， 如 何 选择 最 佳 的 网 络 结 
构 尚 无 已 知 的 正式 结果 。 





b) o 


图 11-21 具有 部 分 递归 的 MLP 的 例子 。 递 归 连 接 用 虚线 显示 : a) 隐 藏 层 中 的 自 连接 ，b) 输 出 层 中 的 自 
接 ，e) 从 输出 层 到 隐藏 层 的 连接 。 还 可 以 有 这 些 情况 的 组 合 


如 果 序 列 具 有 较 小 的 最 大 长 度 ， 则 可 以 使 用 按时 间 展 开 (unfolding in time) ， 将 任意 的 递 
归 网 络 转换 成 等 价 的 前 馈 网 络 (参见 图 11-22) 。 为 不 同时 间 的 拷贝 创建 单独 的 单元 和 连接 。 
结果 网 络 可 以 用 后 向 传播 训练 ， 附 加 的 要 求 是 每 个 连接 的 所 有 拷贝 应 当 保持 相等 。 与 权重 共 
享 一 样 ， 方 法 是 按时 间 对 不 同 权重 的 改变 求 和 ， 并 用 平均 值 更 新 权重 。 这 称 作 通 过 时 间 后 向 
传播 (backpropagation through time) ( Rumelhart, Hinton 和 Willams 1986b) 。 这 种 方法 的 问题 
是 如 果 序列 的 长 度 很 长 ， 则 存储 需求 量 很 大 。 实 时 递归 学 习 (real time recurrent learning ) 
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(Williams 和 Zipser 1989 ) 是 一 种 训练 递归 网 络 而 不 展开 的 算法 ， 并 且 具 有 可 以 用 于 任意 长 度 
序列 的 优点 。 








b) 
图 11-22 通过 时 间 后 向 传播 : a) 递 归 网 络 ，b)4 步 中 行为 相同 的 、 等 价 的 展开 网 络 


11.13 注释 


人 工 神经 网 络 的 研究 历史 与 数字 计算 机 一 样 长 。McCulloch 和 Pitts(1943 ) 提出 了 人 工 神 
经 网 络 的 第 一 个 数学 模型 。Rosenblatt( 1962 ) 提出 了 感知 器 模型 和 学 习 算法 。Minsky 和 Pap- 
ert(1969 ) 指出 了 单 层 感知 器 的 局 限 性 (例如 XOR 问题 ) ， 并 且 由 于 那 时 还 没有 训练 具有 隐藏 
层 的 多 层 感知 器 的 算法 ， 因 此 除了 少数 地 方 之 外 ， 人 工 神 经 网 络 的 工作 几乎 停止 了 。 
Hopfield ( 1982) 的 文章 带 来 了 神经 网 络 的 复兴 。 随 后 出 现 了 并 行 分 布 处 理 (PDP) 研究 小 组 编 
写 的 两 卷 并 行 处 理 书 (Rumelhart 和 McClelland 1986) 。 看 起 来 ， 后 向 传播 几乎 同时 在 多 个 地 
方 被 发 明 ， 而 单 层 感知 器 的 局 限 性 也 不 复 存在 。 

从 20 世纪 80 年 代 中 期 开始 ， 出 现 了 关于 人 工 神 经 网 络 模型 的 大 量 研究 ， 来 自 各 个 学 
P: 物理 学 、 统 计 学 、 心 理学 、 认 知 科学 、 神 经 系统 科学 、 语 言 学 ， 更 不 必 说 计算 机 科学 、 
电子 学 和 自 适 应 控制 了 。 或 许 ， 人 工 神经 网 络 研 究 的 最 重要 贡献 是 这 种 沟通 不 同学 科 ， 特 别 
是 沟通 统计 学 与 工程 的 协同 。 感 谢 这 种 协同 ， 使 机 器 学 习 领 域 现在 得 以 确立 。 

现在 ， 该 领域 更 加 成 熟 ， 目 标 被 更 适当 、 更 好 地 确定 。 对 后 向 传播 的 批评 之 一 是 ， 从 生 
物 学 角度 讲 ， 它 几乎 是 不 可 能 的 ! 尽管 术语 “神经 网 络 ”仍然 被 广泛 使 用 ， 但 是 通常 把 神 
经 网 络 模型 理解 为 (例如 多 层 感知 器 ) 非 参 数 估 计 方 法 ， 并 且 分 析 它 的 最 佳 方法 是 使 用 统计 
学 方法 。 

例如 ， 一 种 类 似 于 多 层 感知 器 的 统计 学 方法 是 投影 追踪 ( projection pursuit) ( Friedman 和 
Stuetzle 1981) ， 表 示 为 
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a 
y= Eos 

不 同 的 是 每 个 “隐藏 单元 ”都 具有 自己 的 pC), REE MLP 中 ,它们 都 是 S 型 函数 。 

在 第 12 章 ， 我们 将 看 到 另 一 种 称 作 径 向 基 范 数 的 神经 网 络 结构 ， 它 在 隐藏 单元 使 用 高 斯 

函数 。 

有 各 种 各 样 的 神经 网 络 教科 书 : 最 早 的 是 Hertz, Krogh 和 Palmer 1991， 仍 然 可 以 阅读 。 
Bishop 1995 重点 是 模式 识别 并 且 详细 讨论 了 可 以 用 于 训练 的 各 种 优化 算法 ， 以 及 贝 叶 斯 方 
法 ， 推 广 了 权重 衰减 。Ripley 1996 从 统计 学 的 角度 分 析 了 神经 网 络 。 

人 工 神经 网 络 ， 例 如 多 层 感知 器 ， 具 有 各 种 各 样 的 成 功 应 用 。 除 了 成 功 地 用 于 自 适应 控 
制 、 语 音 识别 和 视频 之 外 ， 有 两 点 值得 注意 : Tesauro 的 TD- Gammon 程序 (Tesauro 1994) fit 
用 增强 学 习 ( 第 16 章 ) 训 练 多 层 感知 器 ， 并 在 大 师 级 玩 西洋 双 陆 棋 。Pomerleau 的 ALVINN 是 
一 个 神经 网 络 ， 通 过 观察 驾驶 员 学 习 5 分 钟 之 后 ， 它 可 以 自动 驾驶 叮 式 货车 ， 速 度 达 每 小 时 
20 英里 。 


11.14 习题 


给 出 一 个 可 以 计算 其 输入 的 NOT 的 感知 器 。 

.给 出 一 个 可 以 计算 其 两 个 输入 的 NAND 的 感知 器 。 

.给 出 一 个 可 以 计算 其 三 个 输入 的 奇偶 性 的 感知 器 。 

。 当 隐藏 单 元 使 用 tanh 函数 而 不 是 使 用 S 形 函数 时 ， 推 导出 更 新 方程 。 使 用 事实 tanh’ = 
(1 -tanh’ )。 

.为 具有 两 个 隐藏 层 的 MLP 推导 更 新 方程 。 

. 奇偶 性 是 循环 移动 不 变 的 。 例 如 ，“0101” 和 “1010” 具 有 相同 的 奇偶 性 。 使 用 这 个 提 
示 ， 提 出 一 个 学 习 奇 偶 函 数 的 多 层 感知 器 。 

7. 在 级 联 相 关中 ， 冻 结 前 面 已 经 存在 的 权重 有 何 优点 ? 

8. 为 实现 最 小 化 Sammon 应 力 (11. 40) 式 的 Sammon 映射 的 MLP 推导 更 新 方程 。 
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$129 局 部 模型 


我 们 继续 讨论 多 层 神经 网 络 ， 考 察 第 一 层 包含 局 部 接受 单元 的 模型 ; 这些 局 部 接受 单元 
响应 输入 空间 局 部 区 域 中 的 实例 。 上 面 第 二 层 对 这 些 局 部 区 域 学 习 回归 或 分 类 函数 。 我 们 讨 
论 找 出 重要 局 部 区 域 ， 以 及 这 些 区 域 中 的 模型 的 学 习 方法 。 


12.1 引言 


进行 函数 逼近 的 一 种 方法 是 将 输入 空间 划分 成 局 部 小 片 ， 并 且 在 每 个 局 部 小 片 中 分 别 学 
习 拟 合 。 在 第 7 章 ， 我 们 讨论 了 聚 类 的 统计 学 方法 ， 使 得 我 们 能 够 对 输入 实例 分 组 并 对 输入 
分 布 建 模 。 竞 争 方法 是 用 于 在 线 聚 类 的 神经 网 络 方法 。 本 章 ， 我 们 讨论 -均值 的 在 线 版 本 
以 及 两 种 神经 网 络 扩展 : 自 适应 共鸣 理论 ( ART) 和 自 组 织 影射 (SOM) 。 

然后 ， 我 们 讨论 一 旦 输入 局 部 化 ， 如 何 实现 监督 学 习 。 如 果 局 部 小 片上 的 拟 合 是 常量 ， 
则 该 技术 称 作 径 向 基 函 数 (RBF ) 网 络 ; 如 果 拟 合 是 输入 的 线性 函数 ， 则 称 作 混 合 专家 技术 
(MoE) 。 我 们 讨论 回归 和 分 类 ， 并 与 第 11 章 讨论 的 MLP 方法 进行 比较 。 


12.2 竞争 学 习 


在 第 7 章 ， 我们 使 用 半 参 数 高 斯 混合 密度 ， 假 定 输 入 来 自 个 高 斯 源 中 的 一 个 。 本 节 ， 我 
们 做 相同 的 假设 ,数据 中 存在 个 分 组 (或 秘 )， 但 是 我 们 的 方法 不 是 概率 方法 ， 因 为 我 们 不 将 
参数 模型 强加 在 数据 源 上 。 另 一 个 区 别 是 我 们 提出 的 学 习 方法 是 在 线 的 : 在 训练 阶段 我 们 并 没 
有 全 部 样本 ; 我们 逐个 接收 实例 并 更 新 模型 参数 。 使 用 术语 竞争 学 习 (competitive learning) 是 
因为 这 些 分 组 ,更 确切 地 说 ， 代 表 这 些 分 组 的 单元 为 成 为 代表 实例 而 相互 竞争 。 这 种 方法 也 称 
胜 者 全 取 ( winner-take-all) ; 就 像 一 个 分 组 获胜 并 得 到 更 新 ， 而 其 他 分 组 则 完全 不 更 新 一 样 。 

与 第 7 章 讨论 的 方法 相反 ， 这 些 方法 本 身 可 以 用 于 在 线 聚 类 。 在 线 方法 具有 通常 的 优 
点 : (1) 不 需要 附加 的 存储 保存 整个 训练 集 ; (2) 每 步 更 新 简单 、 易 于 实现 (例如 用 硬件 实 
现 ); (3) 输入 的 分 布 可 以 随时 间 而 改变 ， 并 且 模 型 可 以 自动 地 适应 这 些 改变 。 如 果 我 们 使 
用 批 处 理 算法 ， 我 们 将 需要 收集 新 样本 ， 并 且 从 头 开始 在 整个 样本 上 运行 批 处 理 方法 。 

从 12. 3 节 开始 ， 我 们 还 将 讨论 这 种 方法 如 何 后 跟 一 种 监督 方法 ， 来 学 习 回 归 和 分 类 问 
题 。 这 将 是 两 阶段 系统 ， 可 以 用 两 层 网 络 实现 ， 其 中 第 一 阶段 ( 层 ) 对 输入 密度 建 模 并 找到 
相应 的 局 部 模型 ， 而 第 二 阶段 是 产生 最 终 输 出 的 局 部 模型 。 


12.2.1 FER k- 1518 


在 (7.3) 式 ， 我 们 定义 重 构 误差 为 
Elm O 2 TX Dede ml (12.1) 
其 中 
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thie r 如 果 [x -m, || = min, [x -m || (12.2) 


0 否则 
X= |x' |, RRA, mim (i=l, =, KARP. WR m, 是 x' 的 欧 氏 距离 最 接近 的 中 
a>, WOH HRIEBUNDS m,(1=1, =, EP, T m, 赢得 竞争 ， 因 为 它 是 最 近 的 。 
k- HE hO HAE EAE k F EP 
> bx 
m, = 
yg 
一 旦 使 用 (12. 2) 式 选取 获胜 者 ， 它 将 最 小 化 (12. 1) 式 。 正 如 我 们 先前 看 到 的 ， 计 算 b 和 更 
新 m, 的 两 个 步骤 和 迭代， 直到 收敛。 


通过 进行 随机 梯度 下 降 、 逐 个 考虑 实例 、 并 在 每 一 步 进 行 少许 更 新 而 不 忘记 先前 的 更 
新 ， 我 们 可 以 得 到 在 线 均值 (online k-means)。 对 于 单个 实例 ， 重 构 误差 为 


Emir) = PE MMe -mN = Ty LM md? 02.4) 


其 中 bi 的 定义 同 (12.2) 式 。 对 上 式 使 用 梯度 下 降 ， 我 们 得 到 每 个 实例 * 的 更 新 规则 : 
Am, =- 1 2 = qi((s] = my) (12.5) 
F 
这 把 最 近 的 中 心 (其 0| = 1) 向 输入 移动 一 个 因子 7。 其 他 中 心 的 如 (1z i) 等 于 0， 并 且 不 更 新 
(参见 图 12-1) 。 批 处 理 过 程 也 可 以 通过 将 12.5) 式 在 所 有 的 + 上 求 和 定义 。 与 任何 梯度 下 降 过 
程 一 样 ， 也 可 以 添加 一 个 动量 项 。 为 了 收敛，?m 逐渐 减少 为 0。 但 是 ， 这 意味 稳定 性 与 可 塑性 的 
两 难 选择 (stability- plasticity dilemma); 如 果 刀 向 0 递减 ， 则 网 络 变 得 稳定 ， 但 是 因为 更 新 变 得 太 
小 ,我 们 失去 了 对 随时 出 现 的 新 模式 的 适应 性 。 如 果 我 们 一 直 保持 ?9 较 大 ， 则 m, 可 能 震荡 。 


*» 





(12.3) 


T o 
uu 


^O x 


o 





gs 


图 12-1 PARR, SER A. k- 1M E HER 
版 本 沿 方向 (x - m,) RE PB A— TAF n 


在 线 均值 的 伪 代 码 在 图 12-2 中 。 这 是 图 7-3 的 批 处 理 算法 的 在 线 版 本 。 


初始 化 m,(i=1，… ，k) ， 例 如 为 上 个 随机 的 x' 
Repeat 
For 随机 次 序 下 所 有 的 x' eX 


ie—arg min, | x‘ -m, | 





m,—m, +(x! -mj) 
Until m, itai 


图 12-2 ER k- LE EE, WERNEER 7-3 中 
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竞争 网 络 可 以 用 单 层 递归 网 络 实现 ， 如 图 12-3 所 示 。 输 入 层 包含 输入 向 量 x; 注意 没有 
偏 倚 单元 。 输 出 单元 的 值 是 0,, 并 且 它 们 是 感知 器 : 
b; = mix (12.6) 
然后 ， 我 们 需要 选择 最 大 的 b, HEEREN, TRI 5b,(1z# i) 为 0。 如 果 我 们 
想 用 纯粹 的 神经 系统 方法 做 所 有 的 事 ， 即 使 用 并 发 操作 处 理 单元 网 络 ， 则 最 大 值 的 选择 可 以 
用 横向 抑制 (lateral inhibition) 实现。 如 图 12-3 所 示 ， 每 个 单元 有 一 个 到 自身 的 兴奋 的 递归 连 
接 ( 即 具 有 正 权重 ) 和 到 其 他 输出 单元 的 抑制 的 递归 连接 ( 即 具 有 负 权 重 ) 。 使 用 适当 的 非 线 
性 激励 函数 和 正 的 及 负 的 递归 权重 值 ， 这 样 的 网 络 在 某 些 迭代 后 收敛 于 一 种 状态 ， 其 中 最 大 
值 变 成 1， 而 其 余 的 变 成 0( Grossberg 1980, Feldman 和 Ballard 1982) 。 





EJ x 


图 12-3 胜 者 全 取 竞 争 神经 网 络 ， 它 是 在 输出 层 有 递归 连接 的 上 个 感知 器 的 网 络 。 虚 线 是 递归 
连接 ， 其 中 带 箭头 的 是 兴奋 的 ， 而 带 国 点 的 是 抑制 的 。 输 出 屋 的 每 个 单元 加 强 它 的 值 ， 
并 试图 超过 其 他 输出 。 在 这 些 递归 权重 的 适当 赋值 下 ， 最 大 的 抑制 了 其 他 所 有 的 。 这 具有 
网 络 效应 : 其 m, 最 接近 x 的 一 个 单元 以 其 5, 等 于 1 告终 ， 而 其 他 所 有 的 已 (JI 天 站 为 0 


(12. 6) 式 中 使 用 的 点 积 是 一 种 相似 性 度量 ， 并 且 我 们 在 5.5 节 (5. 26) 式 中 看 到 ， 如 果 m, 
有 具有 相同 的 范 数 ， 则 具有 最 小 欧 氏 距离 | m, -x || 的 单元 与 具有 最 大 点 积 mx 的 单元 相同 。 

这 里 和 后 面 ， 当 我 们 讨论 其 他 竞争 方法 时 ， 我 们 使 用 欧 氏 距离 ， 但 是 我 们 应 当 记 住 ， 使 
用 欧 氏 距离 意味 所 有 输入 属性 具有 相同 的 方差 并 且 它 们 是 不 相关 的 。 如 果 不 是 这 种 情况 ， 则 
应 当 反映 在 距离 度量 中 ( 即使 用 Mahalanobis 距离 ) ， 或 者 在 使 用 欧 氏 距离 前 ， 在 预 处 理 阶段 
做 适当 的 规范 化 (例如 用 PCA) 。 

我 们 可 以 将 (12.5) 式 改写 为 


Am, = nbix; - nbim, (12.7) 
让 我 们 回想 一 下 ，m 是 从 到 b, 的 连接 的 权重 。 正 如 我 们 在 前 一 项 所 看 到 的 ， 更 新 
Ami, = nbix' (12.8) 


是 Hebbian J (Hebbian leaming) ， 它 将 更 新 定义 为 前 突 触 与 后 突 触 单元 值 的 乘积 。 它 是 作 
为 神经 可 塑性 模型 提出 的 :一 个 突 触 变 得 更 重要 ， 如 果 该 连接 的 前 后 单元 都 同时 冲动 ， 表 明 
它们 是 相关 的 。 然 而 ， 仅 用 Hebbian 学 习 ， 权 重 的 增加 无 界 (xz;>0) ， 并 且 我 们 需要 第 二 种 
力量 ， 来 减少 未 更 新 的 权重 。 一 种 可 能 的 方法 是 显 式 地 规范 化 权重 ， 使 得 ‖ mm, || =1; 如 果 
Am >0, Am,-0(1* i), —E HE m, 规范 化 为 单位 向 量 ， 则 mv 减少 。 另 一 种 可 能 的 方 
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法 是 引进 权 衰减 项 ( 0ja 1982) ， 而 (12.7) 式 的 第 二 项 就 可 以 看 作 这 样 的 项 。Hertz，Krogh 和 
Palmer(1991) 更 详细 地 讨论 了 竞争 网 络 和 Hebbian 学 习 ， 并 且 展 示 这 种 网 络 如 何 学 习 做 
PCA, Mao 和 Jain(1995 ) 讨 论 了 PCA 和 LDA 的 在 线 算法 。 

正如 我 们 在 第 7 章 所 看 到 的 ， 一 个 问题 是 避免 死 中 心 ， 即 存在 却 没有 被 实际 利用 的 中 
心 。 在 竞争 网 络 ， 这 对 应 因为 被 初始 化 远离 任何 输入 而 从 来 未 能 赢得 竞争 的 中 心 。 存 在 多 种 
方法 避免 它 : 

1. 我 们 可 以 通过 随机 地 选择 输入 实例 来 初始 化 m,， 并 且 确 保 它 们 从 有 数据 的 地 方 开始 。 

2. 我 们 可 以 使 用 领导 者 聚 类 算法 并 且 逐 个 添加 单元 ， 总 是 将 它们 添加 在 需要 它们 的 地 
方 。 一 个 例子 是 ART 模型 ， 我 们 将 在 12.2.2 节 讨 论 。 

3. 更 新 时 不 仅 更 新 最 近 单元 的 中 心 ， 而 且 也 更 新 某 些 其 他 中 心 。 随 着 它们 被 更 新 ， 它 
们 也 向 输入 移动 ， 逐 渐 移 向 输入 空间 存在 输入 的 部 分 ， 并 最 终 赢 得 竞争 。 一 个 例子 是 我 们 将 
在 12.2.3 节 讨 论 的 SOM。 

4. 另 一 种 可 能 引进 良心 (conscience) 机 制 (Desieno 1988) ; 当前 赢得 竞争 的 单元 有 负 罪 
感 并 允许 其 他 单元 获胜 。 


12.2.2 自 适应 共鸣 理论 


在 计算 参数 之 前 , /应当 知道 并 指定 分 组 数 k。 另 一 种 方法 是 增 量 的 (incremental) ， 从 单个 
分 组 开始 ， 并 在 需要 时 添加 新 的 分 组 。 作 为 增 量 算法 的 一 个 例子 ， 我 们 讨论 自 适 应 共鸣 理论 
(adaptive resonance theory，ART) 算 法 (Carpenter 和 Grossberg 1988)。 在 ART 中 ， 给 定 一 个 输 
入 ， 所 有 的 输出 单元 计算 它们 的 值 ， 并 且 选 择 与 输入 最 相似 的 单元 。 如 果 使 用 如 (12.6) 式 中 的 
点 积 ， 则 它 是 具有 最 大 值 的 单元 ; 如 果 使 用 欧 氏 距离 ， 则 它 是 具有 最 小 值 的 单元 。 

让 我 们 假设 我 们 使 用 欧 氏 距离 。 如 果 最 小 值 小 于 某 个 称 作 警 戒 值 (vigilance) H WAH, DU 
IRER 均值 一 样 进行 更 新 。 如 果 距 离 大 于 警戒 值 ， 则 增加 一 个 新 的 输出 单元 ， 并 且 它 的 
中 心 用 该 实例 初始 化 。 这 定义 了 一 个 超 球 ， 其 半径 由 定义 每 个 单元 范围 体积 的 警戒 值 给 定 。 
当 我 们 具有 一 个 不 能 被 任何 单元 覆盖 的 输入 时 ， 我 们 就 增加 一 个 新 单元 (参见 图 12-4). 








图 12-4 从 x" 到 最 近 中 心 的 距离 小 于 警戒 值 p， 中 心 像 在 线 均值 一 样 进行 更 新 。 
然而 ,x 与 任何 中 心 都 不 足够 近 ， 应 当 在 该 位 置 创建 一 个 新 的 分 组 
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记 警 戒 值 为 。， 在 每 次 更 新 我 们 使 用 下 式 : 


6 = Nm = minim -x | (12.9) 
br —x Xk b >p 
Am, = n(x'-m,) EM 


TEER EGLE MS Ot F E GA PE HP BL, JE An IR ES RN JE Rk PR E 
离 、 误 差 像 (12. 4) 式 那样 定义 ， 则 这 表明 每 个 实例 允许 的 最 大 重 构 误差 为 警戒 值 的 平方 。 


12.2.8 BARRA 


避免 死 单元 的 一 种 方法 是 不 仅 更 新 获胜 者 ， 而 且 也 更 新 某 些 其 他 单元 。 在 Kohonen 
(1990，1995 ) 提 出 的 自 组 织 映 射 (self-organizing map，SOM) 中 ， 单 元 下 标 ( 即 ， 如 m, PHY i) a 
义 单 元 的 邻 域 (neighborhood) 。 当 m, 是 最 近 的 中 心 时 ， 除 m, 更 新 之 外 ， 还 更 新 它 的 近邻 。 
例如 ， 如 果 邻 域 大 小 为 2， 则 m., m., mou, mu ee, HPA BIR AY IK, oS 
小 的 权重 。 如 果 i 是 最 近 中 心 的 下 标 ， 则 中 心 按 下 式 更 新 
Am, = ne(1,i)(x' - mj) (12. 10) 
其 中 e(1, i) 是 邻 域 函 数 。 当 1=i 时 el, i) =1， 并 随 |1-i| 增 大 而 减 小 。 例 如 ， 定 义 它 为 高 
MEAN, o): 


e(l,i) = 





u Eae d (12.11) 


exp 
Ino 20° 


为 了 收敛 ， 邻 域 函数 的 支 集 随时 间 减 小 ， 例 如 e 减 小 ， 最 终 只 有 一 个 获胜 者 被 更 新 。 
由 于 邻 域 单元 也 向 输入 移动 ， 我 们 避免 了 死 单 元 ， 因 为 从 它们 的 近邻 朋友 得 到 一 点 初始 
帮助 之 后 ， 稍 后 的 某 个 时 候 它们 将 赢得 竞争 (参见 图 12-5) 。 


ma 


* 








x 
图 12-5 在 SOM F, 不 仅 最 近 的 单元 ， 而 且 还 有 它 的 近邻 (就 下 标 而 言 ) 都 向 输入 移动 。 这 里 ， 
邻 域 为 1; m, 和 它 的 1- 近邻 被 更 新 。 注 意 ， 这 里 m,,, 远 离 m,， 但 是 随 着 它 与 m, 一 起 
更 新 ， 并 且 当 mus LRA m 也 被 更 新 ， 它 们 最 终 也 成 为 输入 空间 的 近邻 


更 新 近邻 具有 如 下 效果 : 即使 中 心 被 随机 初始 化 ， 因 为 它们 一 起 朝 着 相同 的 输入 移动 ， 
因此 一 旦 系统 收敛 ， 具 有 相同 邻近 下 标的 单元 也 将 是 输入 空间 中 的 近邻 。 
在 大 部 分 应 用 中 ， 单 元 被 组 织 成 二 维 映射 (map)。 即 每 个 单元 将 具有 两 个 下 标 mj, J 
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且 邻 域 定义 在 两 个 维 上 。 如 果 m;, 是 最 近 的 中 心 ， 则 中 心 按 下 式 更 新 

Am,, = me(k,l,i,j) (x! - m,,) (12.12) 
FOP BI PR TE Je EH. WUT, RER T UR d- 维 输入 空间 的 二 维 地 形 图 (topographical 
map) 。 该 图 包含 了 空间 的 高 密度 部 分 的 许多 单元 ， 而 对 于 没有 输入 的 部 分 则 不 显示 其 中 的 任 
何 单元 。 一 旦 该 图 收敛 ， 则 原 空间 靠 近 的 输入 被 映射 到 该 图 中 靠近 的 单元 。 从 这 种 角度 讲 ， 该 
图 可 以 解释 为 做 一 个 非 线性 形式 的 多 维 缩放 ， 将 原来 的 x 空间 映射 到 二 维 (i, j) 上 。 类 似 地 ， 
如 果 映 射 是 一 维 的 ， 则 单元 放置 在 输入 空间 最 大 密度 的 曲线 上 ， 作 为 主 曲 线 (principal curve) 。 


12.3 径 向 基 函 数 


在 隐藏 单元 使 用 点 积 的 多 层 感知 器 中 (第 11 章 ) ， 每 一 个 隐藏 单元 定义 了 一 个 超 平面 ， 并 
且 使 用 S 形 非 线性 ， 隐 藏 单元 具有 0 和 1 之 间 的 值 ， 对 每 个 实例 关于 超 平面 的 位 置 编码 。 每 个 
超 平面 将 输入 空间 一 分 为 二 ， 并 且 通 常 对 于 给 定 的 输入 ， 许 多 隐藏 单元 都 具有 非 零 输出 。 这 称 
作 分 布 表示 ( distributed representation) ， 因 为 输入 被 许多 隐藏 单元 的 同时 激活 重新 编码 。 

另 一 种 可 能 性 是 局 部 表示 (local representation) ， 其 中 对 于 给 定 的 输入 ， 只 有 一 个 或 几 个 
单元 是 活路 的 。 就 像 这 些 局 部 调整 (locally tuned) 的 单元 在 它们 之 间 划分 输入 空间 并 且 只 对 
某 些 输入 是 有 选择 的 。 输 入 空间 的 单元 中 具有 非 零 响应 的 部 分 称 作 接受 域 (receptive field) o 
输入 空间 则 被 这 样 的 单元 覆盖 。 

在 大 脑 皮层 的 多 处 发 现 了 具有 这 种 响应 特征 的 神经 元 。 例 如 ， 视 觉 皮层 细胞 对 刺激 有 选择 
地 响应 ， 既 局 部 于 视网膜 的 位 置 ， 又 局 部 于 视觉 方向 的 角度 。 这 种 局 部 调整 的 细胞 通常 排列 在 
大 脑 皮层 图 上 ， 那 里 像 在 SOM 中 一 样 ， 细 胞 对 其 响应 的 变量 值 随 它们 在 图 中 的 位 置 而 变化 。 

局 部 性 意味 有 一 个 距离 函数 ， 度 量 给 定 输入 x 和 单元 h 的 位 置 m, 的 相似 度 。 通 常 ， 访 
度量 取 欧 氏 距 离 | x — m, | 。 选 取 响 应 函数 使 得 当 x nm, 时 取 最 大 值 ， 并 且 随 着 它们 的 相似 
性 减 小 而 减少 。 通常， 我 们 使 用 高 斯 函数 (参见 图 12 -6) : 


pi = exp[- LES Se 1 ] (12.13) 
R 





54 3 2-1 0 1 2 3 4 5 


图 12-6 AFR AE GR CIR E D OE ER CO — HOUR. RPK m=0，s =1。 它 像 高 斯 函数 但 不 是 密度 
函数 ; 其 积分 不 等 于 1。 在 (m -3s, m « 3s) PES, BRE HK B] Ae (m -2s, m 25) 
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严格 地 说 ， 这 不 是 高 斯 密度 ， 但 是 我 们 还 是 使 用 了 相同 的 名 字 。m, 和 .5 分 别 表示 局 部 单 
元 j 的 中 心 和 展 宽 ， 这 样 定义 了 一 个 径 向 对 称 的 基 枉 数 。 以 使 用 更 复杂 的 模型 为 代价 ， 我 们 可 
以 使 用 椭 球 ， 不 同 的 维 上 具有 不 同 的 展 宽 ， 甚 至 使 用 Mahalanobis 距离 ， 允 许 相关 的 输入 。 

使 用 局 部 基 函 数 的 基本 思想 是 ， 在 输入 数据 中 存在 一 些 实例 分 组 或 能 ， 而 对 每 个 全 ， 我 
MELDER p, KKA x 属于 簇 大 时 它 不 为 零 。 我 们 可 以 使 用 12. 2 节 讨 论 的 任意 在 
线 竞争 方法 来 找 出 中 心 m,。 有 一 种 简单 、 有 效 的 启发 式 方法 来 找 出 展 宽 : 一 旦 我 们 求 出 中 
^, 我们 就 可 以 找 出 簇 中 的 最 远 实例 ， 并 令 % 为 它 到 簇 中 心 距离 的 一 半 。 我 们 本 来 也 可 以 
使 用 三 分 之 一 ， 但 是 我 们 宁愿 保守 一 点 。 我 们 还 可 以 使 用 统计 聚 类 方法 找 出 秘 参 数 。 例 如 ， 
在 高 斯 混合 分 布 上 使 用 第 7 章 讨论 的 EM 方法 ， 找 出 能 参数 均值 、 方 差 ( 和 协 方差 ) 。 

所 (=1，…， 且 定义 了 一 个 新 的 H- 维 空间 ， 并 且 形成 x' 的 新 表示 。 我 们 也 可 以 使 用 
b(12.2) 式 对 输入 编码 ,但 是 b 29 0/1; p, 具有 附加 的 优点 ， 它 用 (0，1) 中 的 值 对 点 到 其 
中 心 的 距离 编码 。 该 值 衰减 到 0 的 速度 依赖 于 s,。 图 12-7 给 出 了 一 个 例子 ， 并 且 将 这 种 局 
部 表示 与 多 层 感知 器 使 用 的 分 布 表 示 进 行 比较 。 由 于 高 斯 分 布 都 是 局 部 的 ， 因 此 与 使 用 分 布 
表示 相 比 ， 通 常 我 们 需要 更 多 的 局 部 单元 ， 当 输入 是 高 维 的 时 尤其 如 此 。 


w » 





o ox © ox 
xo xe 
x 
om 
x ie 
Eb, ps po 中 的 局 部 表示 SEH Oy» AD 中 的 分 布 表示 


x: (1.0, 0.0, 0.0) (1.0, 10) 
x*: (0.0, 0.0, 1.0) x* (0.0, 1.0) 
x: (1.0, 1.0, 0.0) x: 1.0, 0.0) 


图 12-7 ”局 部 表示 与 分 布 表示 之 间 的 差别 。 值 是 硬 的 0/1 值 。 我 们 可 以 使 用 (0，1) 之 间 的 软 值得 到 更 
多 信息 编码 。 在 局 部 表示 中 ， 用 高 斯 RBF 做 ， 它 使 用 到 中 心 m, 的 距离 ; 而 在 分 布 表示 中 ， 
使 用 5S 形 函 数 做 ， 它 使 用 到 超 平面 w 的 距离 


在 监督 学 习 的 情况 下 ,我 们 可 以 使 用 这 种 新 的 局 部 表示 作为 输入 。 如 果 我 们 使 用 感知 
器 ， 则 我 们 有 


y - Tp +a, (12.14) 
名 

其 中 也 是 基 函 数 的 个 数 。 这 种 结构 称 作 径 向 基 函 数 ( radial basis function, RBF) 网 络 ( Broom- 
head 和 Lowe 1988; Moody 和 Darken 1989) 。 通 常 ， 人 们 不 使 用 多 于 一 个 高 斯 单元 层 的 RBF 
网 络 。 甩 是 复杂 度 参 数 ， 像 多 层 感知 器 的 隐藏 单 元 数 一 样 。 之 前 ， 当 它 对 应 非 监 督学 习 中 的 

中 心 数 时 ， 我 们 用 上 表示 它 。 
这 里 ,我们 看 到 使 用 p, 而 不 是 使 用 b, 的 优点 。 由 于 bs 是 0/1， 如 果 (12. 14) 式 使 用 b 而 
不 是 p,， 则 它 将 给 出 分 段 常量 近似 ， 在 单元 区 域 的 边界 不 连续 。p, 值 是 软 的 并 导致 光滑 的 近 
似 ， 从 一 个 区 域 到 另 一 个 时 取 加 权 平均 。 我 们 可 以 容易 地 看 到 这 种 网 络 是 一 种 通用 逼近 ， 因 为 
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给 定 足 够 多 的 单元 ， 它 可 以 以 期 望 的 精度 逼近 任意 函数 。 对 于 我 们 期 望 的 精度 ， 我 们 可 以 形成 
一 个 输入 空间 的 网 格 ， 实 际 上 对 每 个 网 格 定义 一 个 单元 ， 并 设置 它 的 权重 w, 为 期 望 的 输出 值 。 

这 种 结构 与 非 参 数 估计 ( 例如 我 们 在 第 8 章 所 看 到 的 Parzen 窗口 ) 很 相似 ， 并且 p, 可 以 
看 作 核 函 数 。 不 同 之 处 在 于 我 们 没有 整个 训练 集 上 的 核 函 数 ， 而 是 使 用 聚 类 方法 将 它们 分 
组 ， 使 用 更 少 的 核 函数 。 单 元 数 HERES, EM MEMES Ee. ee 
单元 ， 我 们 就 更 好 地 逼近 训练 数据 ， 但 是 我 们 得 到 更 复杂 的 模型 并 有 过 分 拟 合 的 风险 ; 太 少 
可 能 拟 合 不 足 。 最 佳 值 仍然 用 交叉 确认 确定 。 

一 旦 给 定 和 国定 m, Ms, p, 也 是 固定 的 。 然 后 可 以 容易 地 批 处 理 或 在 线 地 训练 w,。 对 
于 回归 ， 这 是 一 个 线性 回归 模型 (p, 作为 输入 )， 并 且 w, 可 以 解析 地 求解 ， 而 不 需要 和 迭代 
(4.6 节 )。 对 于 分 类 ， 我 们 需要 借助 于 和 迭代 过 程 。 我 们 在 第 10 章 讨论 过 这 些 学 习 方法 ， 此 
处 不 再 著述 。 

这 里 ， 我 们 要 做 的 是 一 个 两 阶段 过 程 : 我 们 使 用 非 监督 方法 确定 中 心 ， 然 后 在 其 上 构建 
监督 层 。 这 称 作 混 合 学 习 (hybrid learning)。 我 们 还 可 以 用 监督 的 方式 学 习 所 有 的 参数 ， 包 
fim, 和 s%。(12. 13) 式 的 径 向 基 函 数 是 可 微 的 ， 并 且 我 们 可 以 后 向 传播 ， 就 像 我 们 在 多 层 
感知 器 后 向 传播 ， 更 新 第 一 层 的 权重 一 样 。 该 结构 类 似 于 多 层 感知 器 ， 以 p, 为 隐藏 单元 
m, 和 s 作为 第 一 层 的 参数 ， 高 斯 函数 作为 隐藏 层 的 激励 函数 ， 而 w 作为 第 二 个 隐藏 层 的 
权重 ( 见 图 12-8) 。 





* x x, 


图 12-8 RBF 网 络 ， 其 中 p, 是 使 用 钟 形 激励 函数 的 隐藏 单元 ， 
m, s, 是 第 一 层 的 参数 ， 而 w, 是 第 二 层 的 权重 


但 是 ， 在 我 们 讨论 这 些 之 前 ， 我 们 应 当 注 意 到 训练 两 层 网 络 很 慢 。 混 合 模型 一 次 训练 一 
层 ， 因 而 比较 快 。 另 一 种 技术 ， 称 作 锚 (anchor) 方 法 ， 将 中 心 设 置 为 从 训练 集 随 机 选取 的 模 
式 ， 而 不 进一步 更 新 。 如 果 有 许多 单元 ， 这 足以 满足 需要 。 

另 一 方面 ， 精 度 通常 没有 使 用 完全 监督 方法 高 。 考 虑 输入 是 均匀 分 布 的 情况 。k- 均 值 聚 
类 均匀 地 安放 单元 。 如 果 函 数 在 一 小 部 分 空间 稍 有 变化 ， 则 更 好 的 想法 是 将 更 多 单元 安放 在 
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函数 变化 快 的 地 方 ， 以 便 使 误差 尽 可 能 小 ; 这 正 是 完全 监督 方法 所 要 做 的 。 
让 我 们 讨论 如 何在 完全 监督 方式 下 训练 所 有 参数 。 方 法 与 用 于 多 层 感知 器 的 后 向 传播 一 
样 。 让 我 们 考虑 具有 多 个 输出 的 回归 。 批 处 理 的 误差 为 


E({m,,5,,wat in |X) = (12.15) 
其 中 M 
y= Xi +w (12.16) 
使 用 梯度 下 降 ， 我 们 得 到 第 二 层 权 重 的 如 下 更 新 规则 : 
Aw, = 1 (r= yip (12.17) 


这 是 通常 的 感知 器 更 新 规则 ， 其 中 户 作为 输入 。 通 常 ，p, 交 释 不 多 ,并且 在 每 次 迭代 
中 ， 只 有 少量 的 p, 非 零 ， 并 且 只 有 它们 的 w, 被 更 新 。 这 就 是 为 什么 RBF 网 络 学 习 非 常 快 ， 
并 且 比 使 用 分 布 表 示 的 多 层 感知 器 快 的 原因 。 

类 似 地 ， 我 们 可 以 用 后 向 传播 ( 链 规则 ) 得 到 中 心 和 展 宽 的 更 新 方程 : 


amy = 9 | Z Ci - ywa Jp 72 (12.18) 
T4 H 


Mice: 
As = 7Y, [Ec 5], mU (12.19) 


n Fi 

让 我 们 比较 (12. 18) 和 (12.5) 式 : 首先 ， 这 里 我 们 使 用 p, 而 不 是 六， 这 意味 不 仅 最 近 
的 单元 而 且 所 有 的 单元 都 根据 它们 的 中 心 和 展 宽 而 被 更 新 。 其 次 ， 这 里 更 新 是 监督 的 ， 并 且 
包含 后 向 传播 的 误差 项 。 更 新 不 仅 依赖 于 输入 ， 而 且 依赖 于 最 终 的 误差 (7; -YX ) 、 单 元 对 输 
出 的 影响 ws、 单 元 的 活性 p, 和 输入 (x - m,)。 


对 于 分 类 ， 我 们 有 
exp wap, + w, 
Pies tata A So 
Ee [Deu + wa] 
TERRAN 
ECIm,,s, al, 1X) =- Y, Y ri log y; (12.21) 


使 用 梯度 下 降 ， 可 以 类 似 地 导出 更 新 规则 (习题 2) 。 

让 我 们 再 考虑 (12. 14) 式 : 对 于 任意 输入 ， 如 果 p, 非 零 ， 则 它 对 输出 的 贡献 为 wo € 
的 贡献 是 常量 拟 合 ， 由 w, 给 定 。 通 常 ， 高 斯 函数 交友 不 多 ， 并 且 它 们 之 中 的 一 或 两 个 具有 
EPH p, 值 。 在 任何 情况 下 ， 只 有 少数 单元 对 输出 有 贡献 。w。 是 偏 移 常 量 ， 加 到 活跃 ( 非 
零 ) 单 元 的 加 权 和 上 。 我 们 还 看 到 如 果 所 有 的 p 均 为 0， 则 y=w 这样， 我 们 可 以 把 we 看 
作 是 y 的 缺 省 值 : 如 果 没 有 高 斯 单元 是 活跃 的 ， 则 输出 由 该 值 给 定 。 因 此 ， 有 可 能 使 得 该 
“默认 模型 ”具有 更 强 的 能 力 。 例 如 ， 我 们 可 以 令 


a 
y= > rh *v'x + n, (12.22) 
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在 这 种 情况 下 ， 默认 模型 是 线性 的 : va tos 当 它 们 非 零 时 ， 高 斯 模型 好 像 是 “ 例 
外 ”并 修改 输出 ， 补 偿 期 望 输出 与 默认 输出 之 差 。 这 种 模型 可 以 以 监督 方式 训练 ， 而 默认 
模型 与 w 一 起 训练 (习题 3) 。 


12.4 结合 基于 规则 的 知识 


如 果 我 们 能 够 结合 先 验 知识 (prior knowledge) 来 初始 化 ， 则 任何 学 习 系 统 的 训练 都 可 以 
更 简单 。 例 如 ， 先 验 知识 可 以 以 一 组 规则 的 形式 提供 ， 指 定 该 模型 (例如 RBF 网 络 ) 必须 学 
习 的 输入 /输出 映射 。 这 种 情况 在 业界 和 医学 应 用 中 经 常 出 现 ， 在 应 用 中 规则 可 以 由 专家 提 
供 。 类 似 地 ， 一 旦 网 络 被 训练 ， 就 可 以 从 中 提取 规则 ， 使 得 问题 的 解 更 容易 理解 。 

包含 先 验 知识 还 有 其 他 优点 。 如 果 需 要 将 网 络 外 推 到 输入 空间 中 从 未 见 到 训练 数据 的 区 
域 ， 可 以 依赖 这 种 先 验 知 识 。 此 外 ， 在 许多 控制 应 用 中 ， 需 要 网 络 一 开始 就 做 出 合理 的 预 
测 。 在 它 看 到 足够 多 的 训练 数据 之 前 ， 必 须 主要 依赖 这 种 先 验 知识 。 

在 许多 应 用 中 ， 我 们 通常 被 告知 一 些 基本 规则 ， 开 始 需 要 遵循 ， 而 后 通过 经 验 来 精炼 
和 改变 。 我 们 关于 问题 的 初始 知识 越 好 ， 我 们 得 到 好 性 能 就 越 快 ， 并 且 需 要 的 训练 就 
越 少 。 

使 用 RBF 网 络 ， 这 种 包含 先 验 知识 或 提取 学 习 的 知识 很 容易 做 ， 因 为 单元 是 局 部 的 。 
这 使 得 规则 提取 (rule extraction) 更 容易 (Tresp 、Hollatz 和 Ahmad 1997) 。 一 个 例子 是 

IF((x, ~ a)AND(x, ~ 6))OR(x, ~ c)THEN y = 0.1 (12. 23) 

其 中 x ma MH “x, 约 等 于 a”。 在 RBF 框架 中 ， 这 个 规则 被 两 个 高 斯 单元 编码 为 





EL alien pc aa HP w, = 0.1 


25 2s} 





Aa 
ps = exp[- — ] 9-291: 

5 

“ 约 等 于 ”被 一 个 高 斯 函数 建 模 ， 这 里 中 心 是 理想 值 ， 展 宽 表 示 理 想 值 周 许 的 差 。 
合 取 是 两 个 一 元 高 斯 函数 的 积 ， 是 二 元 高 斯 函数 。 于 是 ,第 一 个 乘积 项 可 以 被 二 维 ( 即 x = 
[*,，%*s] ) 高 斯 函数 处 理 ， 其 中 心 在 (a, 58) ， 而 在 两 个 维 上 的 展 宽 由 s, Als, 给 定 。 析 取 被 两 
个 单独 的 高 斯 函数 建 模 ， 每 个 处 理 一 个 析 取 项 。 

给 定 标记 的 训练 数据 ， 使 用 较 小 的 m 值 ， 这 样 构造 的 RBF 网 络 的 参数 在 初始 构造 后 可 
以 微调 。 

这 种 表示 方法 与 模糊 逻辑 方法 有 关 ， 那 里 (12. 23 ) 式 称 作 模 糊 规 则 (fuzzy rule) 。 检 查 近 
似 相 等 的 高 斯 基 函 数 对 应 模糊 隶属 关系 函数 (fuzzy membership function) ( Berthold 1999; 
Cherkassky 和 Mulier 1998) 。 





12.5 规范 化 基 函 数 


在 (12. 14) 式 中 ， 对 于 一 个 输入 ， 可 能 所 有 的 p, 都 为 0。 在 某 些 应 用 中 ， 我们 可 能 希望 


有 一 个 规范 化 步 又， 确保 局 部 单元 值 的 和 为 1， 从 而 确保 对 于 任何 输入 ， 至 少 存在 一 个 非 零 
单元 : 
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g oP pl le = 28) 20 


às P expl- da - m 77257) 
图 12-9 给 出 了 一 个 例子 。 取 p 为 p(x lh), g, 对 应 x 属于 单元 的 后 验 概率 p(h |x). 
它 就 像 单元 在 它们 之 间 划分 输入 空间 。 我 们 可 以 想象 g, 本 身 是 分 类 器 ， 为 给 定 的 输入 选择 
响应 单元 。 这 种 分 类 基于 距离 来 做 ， 就 像 在 有 参 高 斯 分 类 器 中 那样 (第 5 章 ) 。 
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图 12-9 规范 化 前 ( - ) 和 规范 化 后 ( - - ) 的 三 个 高 斯 分 布 ， 其 中 心 用 “* ”标记 。 
注意 一 个 单元 的 非 零 区 域 还 依赖 其 他 单元 的 位 置 。 如 果 展 宽 较 小 ， 则 规 
范 化 实现 较 硬 的 划分 ; 使 用 较 大 的 展 宽 ， 单 元 重 登 更 多 


输出 是 加 权 和 


1 
yi = wá (12.25) 
这 里 不 需要 偏 倚 项 ， 因 为 对 于 每 个 x， 至 少 有 一 个 非 零 的 g,。 使 用 g, 而 不 是 p, 并 不 引进 附 
加 的 参数 ; 它 只 是 将 单元 联系 在 一 起 : p, 仅 依赖 于 m, 和 s, ,但 是 由 于 规范 化 ，g 依赖 于 所 
有 单元 的 中 心 和 展 宽 。 
对 于 回归 ， 使 用 梯度 下 降 ， 我 们 有 如 下 更 新 规则 : 
Aw, = 1 Gi - viet (12.26) 


Amy = 3X, X, Gi = - y) C (2.27) 


n 


可 以 类 似 地 导出 s, 的 更 新 规则 和 用 于 分 类 的 规则 。 让 我 们 把 这 些 规则 与 具有 非 规范 化 
高 斯 分 布 的 RBF 的 规则 (12. 17 ) 式 进行 比较 。 这 里 ， 我 们 使 用 g, 而 不 是 p,， 这 使 得 单元 的 
更 新 不 仅 依赖 于 它 自己 的 参数 ， 而 且 也 依赖 于 其 他 单元 的 中 心 和 展 宽 。 比 较 (12.27) 和 
(12. 18) 式 ， 我 们 看 到 我 们 有 (wa - 1) 而 不 是 ws， 这 展示 了 规范 化 在 输出 上 的 作用 。“ 负 
责任 ”的 单元 希望 降低 它 的 输出 ws 和 最 终 输 出 y, 之 间 的 差 ， 正 比 于 它 的 责任 go 
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12.6 $53 


正如 我 们 迄今 为 止 所 看 到 的 ， 在 RBF 网 络 中 ， 最 终 的 输出 被 局 部 单元 贡献 的 加 权 和 所 
确定 。 尽 管 单元 是 局 部 的 ， 但 是 重要 的 是 最 终 的 加 权 和 ， 并 且 我 们 希望 使 它 与 要 求 的 输出 尽 
可 能 接近 。 例 如 对 于 回归 ， 我 们 最 小 化 (12. 15) 式 ， 这 基于 概率 模型 

fp [- 522^] (12.28) 


p 1x) = [T e x 
其 中 多 由 (12. 16) 式 ( 非 规范 化 的 ) 或 (12.25) 式 (规范 化 的 ) 给 出 。 在 两 种 情况 下 ， 我 们 都 可 
以 将 模型 看 作协 同 (cooperative) 模型 ， 因 为 单元 协同 操作 ， 以 便 产生 最 终 的 输出 yio AI 
在 ， 我 们 讨论 使 用 竞争 基 画 数 ( competitive basis function) 的 方法 ， 其 中 我 们 假定 输出 取 自 混 
合 模型 








p(r'|x') = Ph le eC | hax") (12.29) 
p(h|x') 是 混合 比例 ，p(r' |h，x') 是 产生 输出 的 混合 分 支 ， 如 果 该 分 支 被 选择 的 话 。 注 意 
这 两 项 都 依赖 于 输入 x。 
混合 比例 为 
ph |x) = ELD) (12.30) 
dete | Dp?) 
g a pL em an] dd 


Baexp[ px - mami 
一 般 ， 我 们 假定 a, 相等 并 忽略 它们 。 让 我 们 先 考虑 回归 ， 其 中 分 支 是 高 斯 的 。 在 
(12.28) 式 ， 噪 声 被 加 到 加 权 和 上 ; 这 里 一 个 分 支 被 选中 ,并且 噪 声 加 到 它 的 输出 ya Eo 
使 用 (12. 29) 式 的 混合 模型 ， 对 数 似 然 是 
LC im, s aliu |X) = Lieg eerp - 3D (rh x] (12.32) 
Jb ya cw, Rt SPE h AER GR CACERES. PNB, EAR ROB x. (HE 12.8.2 节 ， 
我 们 讨论 竞争 的 混合 专家 模型 ， 其 中 局 部 拟 合 是 x 的 线性 函数 。) 我 们 看 到 如 果 e 为 1， 则 
它 对 产生 正确 的 输出 负责 ， 并 且 需 要 最 小 化 它 的 预测 误差 的 平方 和 Y (r - ya)’ o 
使 用 梯度 上 升 最 大 化 该 对 数 似 然 ， 我 们 得 到 
Aw, = 23, (ry (12. 33) 
其 中 
g exe [- FD 4 -5»] 


ane PELE Sa SEE 
Yaiew[- FD -»»] 


(12.34) 
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(A | r,x) = C lx)p(r|h,x) 12.35 
fbr Doc! leer Ha) (1429 
di = p(h | ) 是 给 定 输入 、 单 元 的 后 验 概率 ， 并 且 它 依赖 于 所 有 单元 的 中 心 和 展 宽 。 fi = 
p(h | r, x ) 是 给 定 输入 和 期 望 的 输出 、 单 元 的 后 验 概率 ， 也 在 选择 负责 单元 时 考虑 误差 。 
类 似 地 ， 我 们 可 以 推导 更 新 中 心 的 规则 : 
m) 


Am, = 23. 6) Siam) 

所 是 单元 h 的 后 验 概率 ， 也 考 上 处 要 求 的 输出 ， 而 e, 是 仅 使 用 输入 空间 信息 的 后 验 概 

率 。 它 们 的 差 是 中 心 的 误差 项 。 可 以 类 似 地 导出 As,。 在 协同 情况 下 ， 并 不 强求 单元 是 局 

部 的 。 为 了 降低 误差 ,均值 和 展 宽 都 可 以 取 任 意 值 ; 有 时 ， 甚 至 可 以 增加 和 展 平展 宽 。 

然而 ， 在 竞争 情况 下 ， 为 了 提高 似 然 ， 单 元 必须 是 局 部 的 ， 它 们 之 间 更 加 分 离 ， 并 具有 

更 小 的 展 宽 。 

对 于 分 类 ， 每 个 分 支 本 身 是 多 项 式 。 于 是 ， 对 数 似 然 为 

Lm, s, wat in IX) = XY aot (12.37) 


A F los Y ei exp | Xni] (12.38) 


(12. 36) 


其 中 


PAS FP Wa (12.39) 


Dore 


可 以 使 用 梯度 上 升 导出 wy. m, 和 % 的 更 新 规则 ， 这 包括 
gi exp[ DY ri log ya ] 

P Xdo[ 2: log yi | 

在 第 7 章 ， 我 们 讨论 了 用 混合 高 斯 模型 拟 合 数据 的 EM 算法 。 也 可 以 将 EM 推广 到 监督 


H3). KRE, ERE LEE E Ies f, = p(r|h, x') 取 代 了 p(h|x')， 后 者 是 应 用 处 于 非 监 
督 状态 时 我 们 在 第 7 章 的 E 步 所 使 用 的 。 对 于 回归 ， 在 M 步 我 们 用 下 式 更 新 参数 


(12.40) 








Lhe 

m, = X4 (12.41) 
DAG! -m)G -m)' 

"T IMG ae (12.42) 
Efri 

wa = YA (12.43) 


我 们 看 到 ww 是 加 权 平均 ， 其 中 权重 是 给 定 输入 和 期 望 的 输出 、 单 元 的 后 验 概率 。 对 于 
分 类 ，M 步 没 有 解析 解 并 且 需 要 借助 于 迭代 过 程 ， 例 如 梯度 上 升 (Jordan 和 Jacobs 1994) 。 
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12.7 学 习 向 量 量化 


假设 对 每 个 类 我 们 有 五 个 单元 ,已 经 被 这 些 类 标记 。 这 些 单元 已 经 被 它们 的 类 中 的 实 
例 随机 初始 化 。 在 每 次 迭代 中 ， 我 们 发 现 单元 m, 在 欧式 距离 下 最 接近 输入 实例 ， 并 使 用 如 
下 更 新 规则 : 
R = n(x' -m,) 3 x! fo m, 具有 相同 的 类 标号 (12.44) 

Am, =-7(x'-m,) ”否则 

如 果 最 近 的 中 心 具有 正确 的 标号 ， 则 它 将 移 向 输入 ， 以 便 更 好 地 代表 它 。 如 果 它 属于 错 
误 的 类 ， 则 它 远 离 输入 ， 我 们 期 望 的 情形 是 ， 如 果 它 移 得 足够 远 ， 则 在 未 来 的 迭代 中 正确 的 
类 将 是 最 近 的 。 这 称 作 学 习 向 量 量化 (learning vector quantization, LVQ) 模型 ， 由 Kohonen f 
出 (1990，1995) 。 

LVO 更 新 方程 类 似 于 (12. 36) 式 ， 其 中 中 心 移动 的 方向 依赖 于 两 个 值 的 差 : 获胜 单元 基 
于 输入 距离 的 预测 和 获胜 者 基于 要 求 的 输出 。 


12.8 混合 专家 模型 


在 RBF 中 ， 对 应 每 个 局 部 小 片 ， 我 们 给 出 一 个 常量 拟 合 。 在 对 于 任意 输入 ， 我 们 有 一 
^r a, 为 1， 而 其 余 为 0 的 情况 下 ,我们 得 到 一 个 分 段 常量 近似 其 中 对 于 输出 i， 小 片 4 的 
局 部 拟 合 由 ww 给 出 。 从 泰勒 展开 式 我 们 知道 在 每 个 点 ， 函 数 可 以 写成 

f(x) = fla) + (x-a)f'(a) +… (12. 45) 

这 样 ， 如 果 * 足够 接近 a 并 且 /'(a) 接 近 0， 即 如 果 _f(x) 在 a 附近 是 平坦 的 ， 则 常量 近 
似 很 好 。 如 果 不 是 这 种 情况 ， 则 我 们 需要 将 空间 划分 成 大 量 小 片 。 当 输入 维度 很 高 时 ， 由 于 
维 灾难 的 缘故 ， 这 将 是 一 个 特别 严重 的 问题 。 

一 种 可 供 选 择 的 方法 是 考虑 泰勒 展开 式 的 下 一 项 ( 即 线性 项 ) ， 使 用 分 段 线性 近似 
(piecewise linear approximation) 。 这 就 是 混合 专家 模型 (mixture of experts) 所 做 的 (Jacobs 等 
1991) 。 我 们 令 


y= 2 vasi (12. 46) 
它 与 (12. 25) 式 一 样 ， 但 是 这 里 小 片上 对 输出 ;的 贡献 ww 不 是 常量 ， 而 是 输入 的 线性 函数 ， 
wi, = VIX’ (12. 47) 


v JESCAE, ERM, ORAS LAMB CR BAIL GRRR RBF 网 络 的 
推广 。 单 元 活性 可 以 取 规范 化 的 RBF: 
expl- 1 - m, E7241] 
Ca (12.48) 
PU Gel qe man 
除 第 二 层 权重 不 是 常量 而 是 线性 模型 的 输出 外 ， 这 可 以 看 作 RBF 网 络 (参见 图 12-10)。 
Jacobs 等 (1991) 用 另 一 种 方法 来 看 它 ， 他们 将 w 看 作 线 性 模型 ， 每 个 都 取 输入 ， 并 称 它们 
DER ga 被 看 作 一 个 门 网 络 (gating network) 的 输出 。 门 网 络 就 像 其 输出 之 和 为 1 的 分 类 器 
一 样 ， 将 输入 指派 给 一 个 专家 (参见 图 12-11) 。 
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图 12-10 混合 专家 模型 可 以 看 作 RBF 网 络 ， 其 中 第 二 层 的 权重 是 线性 
模型 的 输出 。 为 清晰 起 见 ， 只 显示 了 一 个 线性 模型 





图 12-11 混合 专家 模型 可 以 看 作 组 合 多 种 模型 的 模型 。w, 是 模型 ， 而 门 网 络 是 另 一 种 确定 每 个 
模型 的 权重 的 模型 ， 如 &, 所 示 。 从 这 个 角度 来 看 ， 专 家 和 门 网 络 都 不 限于 是 线性 的 


用 这 种 方式 看 待 门 网 络 ， 任 何 分 类 器 都 可 以 用 在 门 网 络 之 中 。 当 x 是 高 维 的 时 ， 使 用 局 
部 高 斯 单元 可 能 需要 大 量 专家 ， 而 Jacobs 等 (1991) 提 议 取 
, __eplmix'] 
tm 
这 是 一 个 线性 分 类 器 。 注 意 ，m, 不 再 是 中 心 ， 而 是 超 平 面 ， 并 因此 包含 偏 倚 值 。 门 网 络 实 
现 了 分 类 ， 它 将 输入 区 域 线性 地 划分 成 专家 h 负责 的 区 域 和 其 他 专家 负责 的 区 域 。 正 如 我 们 
将 在 第 15 章 再 次 看 到 的 ， 混 合 专家 模型 是 一 种 组 合 多 个 模型 的 一 般 结构 ; 专家 和 门 网 络 都 
可 以 是 非 线 性 的 ， 例 如 ， 包 含 多 层 感 知 器 而 不 是 线性 感知 器 (习题 5) 。 
Bottou 和 Vapnik(1992) 提出 了 一 种 类 似 于 混合 专家 模型 并 进行 线性 光滑 的 结构 。 在 他 们 


(12.49) 
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的 方法 中 ， 最 初时 并 不 做 训练 。 当 给 定 一 个 检验 样本 时 ， 选 择 一 个 接近 检验 实例 的 数据 子 集 
《与 所 最 近邻 一 样 ， 但 使 用 更 大 的 上) ， 使 用 这 些 局 部 数据 训练 一 个 简单 模型 (如 线性 分 类 
器 ) ， 对 实例 做 出 预测 ， 然 后 丢弃 该 模型 。 对 于 下 一 个 实例 ， 创 建 一 个 新 模型 ， 如 此 下 去 。 
在 手写 数字 识别 应 用 中 ， 这 种 模型 比 多 层 感知 器 、 太 最 近邻 和 Parzen 窗口 具有 更 小 的 误差 。 
缺点 是 需要 现场 对 每 个 检验 实例 训练 一 个 新 模型 。 


12.8.1 协同 专家 模型 


在 协同 情况 下 ,y; 由 (12. 46) 式 给 定 ， 而 我 们 希望 使 它 与 要 求 的 输出 r 尽 可 能 接近 。 对 
于 回归 ， 误差 函 数 是 


ECUm n mula DO = Y X GL - 91)? (12.50) 
使 用 梯度 下 降 ， 则 第 二 层 (专家 ) 权 重 参数 更 新 为 
Ava = nD (ry gx (12.51) 


与 (12. 26) 式 比较 ， 我 们 看 到 唯一 的 区 别 是 ， 新 的 更 新 是 输入 的 函数 。 
如 果 我 们 使 用 软 最 大 门 (12. 49 式 ) ， 则 使 用 梯度 下 降 我 们 有 超 平面 的 如 下 更 新 规则 


Amy = nY, Y, Ci - yi) v -yie (12.52) 
如 果 我 们 使 用 径 向 门 (12. 48 式 ) ， 则 只 有 最 后 一 项 如 ,Xeamw 不 同 。 
对 于 分 类 ， 我 们 有 
exp [ wag 
ead) ee 
Xo F vuei] 


其 中 wa =vax, HEEL EF BE T ERI TATT PLE SI H E BUY COJ A 6) 。 
12.8.2 竞争 专家 模型 


正如 竞争 的 RBF, 我们 有 
Lim mms DO = Z loege e| -E 0075] (12.54) 
其 中 ya = wi, =vax'。 使 用 梯度 上 升 ， 我 们 得 到 


Av, = nD Gi - Xon (12.55) 
Am, Y (i - gx (12.56) 
假定 软 最 大 门 如 (12.49) 式 。 
对 于 分 类 ， 我 们 有 
LC {my s aliu |X) = XY appoo: (12.57) 


= X log Y, giexp [ 23 r log y^, ] (12.58) 
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其 中 


To C205 


2 exp wi, > exp[vax'] 

Jordan 和 Jacobs (1994) 3f EM 推广 到 具有 局 部 线性 模型 的 竞争 情况 。Alpaydin 和 Jordan 
(1996) 比较 了 用 于 分 类 人 物 的 协同 和 竞争 模型 ， 发 现 协 同 模型 一 般 更 精确 ， 但 是 竞争 版 本 
学 习 更 快 。 这 是 因为 在 协同 情况 下 ， 重合 更 多 并 且 实现 了 比较 光滑 的 近似 ， 因 此 更 适合 回归 
问题 。 竞 争 模型 做 比较 硬 的 划分 ; 通常 ， 对 于 一 个 输入 ， 只 有 一 个 专家 是 活路 的 ， 因 此 学 习 
更 快 。 


12.9 层次 混合 专家 模型 


在 图 12-11 中 ,我 们 看 到 一 组 专家 和 一 个 选择 一 个 专家 作为 输入 的 函数 的 门 网 络 。 在 层 
次 混合 专家 模型 (hierarchical mixture of expert) 中 ， 我 们 以 递归 的 方式 用 二 个 完整 的 混 侣 专家 
系统 取代 每 个 专家 (Jordan 和 Jacobs 1994) 。 这 种 结构 可 以 看 作 是 一 棵 决策 树 ( 第 9 RE), It 
中 门 网 络 可 以 看 作 决 策 结 点 。 当 门 网 络 是 线性 的 时 ， 这 很 像 第 9.6 节 讨论 的 线性 多 元 决策 
树 。 区 别 是 门 网 络 并 不 做 硬 决 策 ， 而 是 取 来 自 子女 贡献 的 加 权 和 。 叶 结 点 是 线性 模型 ， 并 且 
它们 的 决策 被 取 平均 值 并 在 树 中 向 上 传播 。 树 根 给 出 最 终 的 输出 ， 输 出 是 所 有 树叶 决策 的 加 
权 和 。 这 是 一 棵 软 决策 树 (soft decision tree) ， 与 我 们 以 前 看 到 的 决策 树 不 同 ， 其 中 只 取 一 条 
从 树 根 到 树叶 的 路 径 。 

一 旦 结构 选 定 ， 即 选 定 深度 、 专 家 和 门 模型 ， 整 棵 树 就 可 以 从 标记 的 样本 中 学 习 。Jor- 
dan 和 Jacobs(1994 ) 为 这 样 的 结构 推导 出 了 梯度 下 降 和 EM 学 习 规 则 。 


12.10 注释 


RBF 网 络 可 以 看 作 神经 网 络 ， 由 简单 处 理 单元 的 网 络 实现 。 它 不 同 于 多 层 感 知 器 ， 第 
一 层 和 第 二 层 实现 了 不 同 的 函数 。Omohundro(1987) 讨论 了 如 何 用 神经 网 络 实现 扁 部 模型 ， 
并 且 还 提出 了 相关 局 部 单元 快速 局 部 化 的 层次 数据 结构 。Specht(1991) 证 明 Parzen 窗口 可 以 
作为 神经 网 络 实现 。 

Platt(1991) 提 出 了 RBF 的 增 量 版 本 ， 那 里 新 单元 可 以 在 必要 时 添加 。 类 似 地 ，Fritzke 
(1995 ) 提 出 了 SOM 的 增长 版 本 。 

Lee(1991 ) 在 手写 数字 识别 应 用 上 比较 了 大 最 近邻 、 多 层 感 知 器 和 RBF 网 络 ， 并 且 结 论 
是 三 种 方法 都 具有 小 误差 率 。RBF 网 络 学 习 比 多 层 感知 器 上 的 后 向 传播 快 ， 但 是 使 用 更 多 
参数 。 就 分 类 速度 和 存储 需求 而 言 ， 这 两 种 方法 都 优 于 k-NN。 在 实际 应 用 中 ， 像 时 间 、 存 
储量 和 计算 复杂 性 等 实际 限制 可 能 比 误差 率 的 些许 差别 更 重要 。 

Kohonen 的 SOM(1990, 1995) 是 最 流行 的 神经 网 络 方法 之 一 ， 已 经 用 于 各 种 各 样 的 应 
用 ,包括 探测 式 数据 分 析 和 作为 监督 学 习 之 前 的 预 处 理 步 又。 一 个 有 趣 和 成 功 应 用 的 例子 是 
旅行 商人 的 问题 (Angeniol、Vaubois 和 Le Texier 1988) 。 








[300 











[301 

















[302] 








196 gi2* 





12.11 习题 


给 出 一 个 实现 XOR 的 RBF 网 络 。 

. 为 分 类 的 RBF 网 络 推导 更 新 方程 (12. 20 和 12.21 X). 

,展示 如 何 训练 (12. 22) 式 给 定 的 系统 。 

.比较 混合 专家 结构 和 RBF 网 络 的 参数 个 数 。 

. 给 出 混合 专家 结构 的 公式 ， 其 中 专家 和 门 网 络 都 是 多 层 感 知 器 。 为 回归 和 预测 推导 更 新 
方程 。 

6. 为 分 类 推导 协同 混合 专家 模型 的 更 新 方程 。 

7. 为 分 类 推导 竞争 混合 专家 模型 的 更 新 方程 。 

8. 给 出 具有 两 个 层次 混合 专家 结构 的 公式 。 使 用 梯度 下 降 ， 为 回归 和 分 类 推导 更 新 方程 。 
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第 13 章 ， 隐 马尔 可 夫 模 型 


我 们 放松 样本 实例 相互 独立 的 假设 ， 并 引入 马尔 可 夫 模型 ， 将 输入 序列 建 模 为 由 一 个 参数 
化 随机 过 程 所 产生 的 序列 。 我 们 讨论 如 何 完成 这 一 建 模 以 及 从 样本 序列 学 习 模型 参数 的 算法 。 


13.1 引言 


迄今 为 止 ， 我 们 一 直 假设 样本 中 的 实例 是 独立 同 分 布 的 。 这 样 做 的 好 处 是 样本 的 似 然 可 
简化 为 各 个 实例 的 似 然 之 积 。 然 而 ， 这 一 假设 在 相继 实例 相互 依赖 的 应 用 中 并 不 成 立 。 例 
如 ， 在 一 个 单词 中 相继 的 字母 是 相互 依赖 的 ; 在 英文 中 ，“h” 非 常 可 能 跟随 在 “t” 而 非 
“x” 之 后 。 这 类 存在 观测 序列 (例如 ， 单 词 中 的 字母 ，DNA 序列 中 的 基 对 ) 的 过 程 并 不 能 用 
简单 的 概率 分 布 进行 建 模 。 一 个 类 似 的 例子 是 语言 识别 ， 其 中 语音 片段 由 称 为 音素 的 语音 基 
元 组 成 ;只 有 某 些 音 素 序列 是 合法 的 ， 即 该 语言 的 单词 。 在 更 高 的 层次 上 ， 以 某 种 序列 书写 
或 读 出 单词 ， 形 成 由 该 语言 的 语法 和 语义 规则 定义 的 语句 。 

一 个 序列 可 用 一 个 参数 化 的 随机 过 程 ( parametric random process) 来 刻画 。 本 章 ， 我们 讨 
论 如 何 完成 这 种 建 模 以 及 如 何 从 样本 序列 的 训练 集中 学 习 模 型 的 参数 。 


13.2 离散 马尔 可 夫 过 程 


考虑 一 个 系统 ， 其 在 任意 时 刻 处 于 N 个 离散 状态 中 的 一 个 : S, S, s Sro ERZA t 
的 状态 记 作 9,，t =1，2，…。 例 如 ，9, =S, RRENA t 系统 处 于 状态 5,。 尽 管 我 们 用 “时 
刻 ” 好 像 这 应 该 是 一 个 时 间 序 列 ， 但 是 这 种 方法 对 任意 序列 ， 无 论 是 时 间 、 空 间 、DNA M 
上 位 置 等 等 ， 都 是 有 效 的 。 
系统 在 有 规律 的 、 间 隔 的 离散 时 刻 ， 根 据 以 前 的 状态 值 ， 以 给 定 的 概率 转移 到 一 个 
状态 : 
P(qa = Sla = Si,g = Sen) 
对 于 一 阶 马尔 可 夫 模 型 (Markov model) 的 特例 ， 系 统 在 时 刻 :+1 的 状态 仅仅 依赖 于 在 时 
刻 : 的 状态 ， 而 与 之 前 的 状态 无 关 : 
P(q = Glg = Soga = $5,77) = P(g = S19, = S) (13.1) 
这 相当 于 说 ， 给 定 当前 的 状态 ， 未 来 的 系统 状态 独立 于 过 去 的 状态 。 这 恰 是 谚语 “ 今 
天 是 你 余生 的 第 一 天 ”的 数学 表达 版 本 。 
我 们 进一步 简化 模型 ， 假 定 转移 概率 (transition probability ) 是 独立 于 时 间 的 : 
a, = P(q = Sla; = $) (13.2) 
满足 


a,2>0#H Ya, = 1 (13.3) 
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因此 ， 从 状态 S, 到 状态 5; 的 状态 转移 总 是 具有 相同 的 概率 ， 无 论 这 个 转移 在 观测 序列 
中 的 何 时 或 何 地 发 生 。A = [as] 是 一 个 NxNN 的 矩阵 ， 其 每 行 之 和 均 为 1。 

这 可 看 作 是 一 个 随机 自动 机 (stochastic automationj( 见 图 13-1) 。 从 每 个 状态 S, RA 
概率 ay 转移 到 状态 5;,， 并 且 这 一 概率 在 任何 时 刻 : 均 相同 。 唯 一 的 特例 是 第 一 个 状态 。 我 们 
定义 初始 概率 (initial probability) r,， 表 示 序 列 的 第 一 个 状态 是 S, 的 概率 : 

m, = P(q, = $)) (13.4) 
满足 


(13.5) 





图 13-1 具有 三 个 状态 的 马尔 可 夫 模型 作为 随机 自动 机 的 实例 。m, 是 系统 
始 于 状态 S, 的 概率 ,ay 是 系统 从 状态 S, 转移 到 状态 S, 的 概率 


IL = [m,] 是 一 个 具有 N 个 元 素 的 向 量 ， 元 素 和 为 1。 

在 一 个 可 观测 马尔 可 夫 模 型 (observable Markov model) 中 ， 状 态 是 可 观测 的 。 在 任意 时 
刻 :， 我 们 知道 9,， 并 且 随 着 系统 从 一 个 状态 转移 到 另 一 个 状态 ， 我 们 得 到 一 个 观测 序列 ， 
即 为 状态 序列 。 该 过 程 的 输出 是 一 个 状态 集 ， 在 每 个 时 间 点 上 每 个 状态 对 应 一 个 物理 可 观测 


事件 。 
我 们 有 一 个 观测 序列 0， 它 是 状态 序列 0 =Q= 19i9g…9gz| ， 其 概率 为 
PCO = QI A.M) = PGOT[PG I) = 7052,78, sr (13.6) 
mu 是 首 状态 为 q WEER, a EA q 到 g 的 概率 ， 以 此 类 推 。 我 们 将 这 些 概率 相 乘 ， 
得 到 产生 整个 序列 发 生 的 概率 。 


我 们 现在 看 一 个 具体 例子 (Rabiner 和 Juang 1986); 假定 我 们 有 NAAR, BAR 
仅 有 一 种 颜色 的 球 。 例 如 ， 有 一 个 装 红色 球 的 容器 ， 一 个 装 蓝 色 球 的 容器 ……e 某 人 一 个 接 
一 个 地 从 各 个 容器 中 取 球 ， 并 将 它们 的 颜色 展示 给 我 们 。 以 q 表示 在 时 刻 :所 取 球 的 颜色 。 
我 们 假定 有 三 个 状态 : 





$,: &,$,: S EE ME 
并 有 初始 概率 : 
II = [(0.5,0.2,0.3]" 
是 从 容器 i 中 取 一 个 颜色 i 的 球 之 后 ， 从 容器 j 中 取 ( 一 个 颜色 j 的 ) 球 的 概率 s 例如 ， 








[306] 














307 








200 第 13 章 








转移 矩阵 为 : 


0.2 0.6 0.2 
0.1 0.1 0.8 

给 定 工 和 A， 很 容易 产生 下 个 长 度 为 7 了 的 随机 序列 。 我 们 来 看 如 何 计算 一 个 序列 的 概 
率 : :假定 前 四 个 球 是 “ 红 ， 红 ， 绿 ， 绿 " 。 这 对 应 观测 序列 0 = | 5, S, S, Sho I 
率 为 





0.4 0.3 " 


P(olA,m) = P(S,) + P(S,|S,) + P(S, |S,) + P(S, | S) 
= T, * an * ay .an (13.7) 
= 0.5 x0.4 x0.3 x0.8 = 0.048 
现在 ,我 们 来 看 如 何 可 以 学 习 得 到 参数 ALA: BE K MEME T UY PU, q RRF 

列 上 在 上 时 刻 的 状态 ， 初 始 概率 的 估计 是 以 S, 起 始 的 序列 个 数 除 以 序列 总 数 : 


. _ Has, 开始 的 序列 | 2100052 
ers DEI ï K 
其 中 1(5) 为 1 如果 4 取 真 值 ， 否 则 1(5) 为 0。 
至 于 转移 概率 ， 对 a 的 估计 为 从 S, 转移 到 S, 的 个 数 除 以 所 有 序列 中 从 S, 转移 的 总 数 : 


a HAS sis me! BMG = Sand ais =S) 
LU ro = 了 -1 
SDAS 的 转移 | Seen 
全 是 一 个 蓝 色 球 跟 在 一 个 红色 球 之 后 的 次 数 除 以 所 有 序列 中 红色 球 的 总 数 。 
13.3 隐 马 尔 可 夫 模 型 


在 隐 马 尔 可 夫 模 型 (hidden Markov model, HMM) 中， 系统 状态 是 不 可 观测 的 ,但 是 到 达 
一 个 状态 时 ， 可 以 记录 一 个 观测 ， 这 个 观测 是 该 状态 的 一 个 概率 函数 。 我 们 假定 每 个 状态 的 
一 个 离散 观测 取 自 集合 |v,，v,，…，vw| : 

b(m) = P(O, = v, |q, = S) (13. 10) 

b(m) 是 系统 处 于 状态 S, 时 ， 我 们 观测 到 v(m 21, ++, M) 的 观测 概率 (observation 
probability) 或 发 射 概率 (emission probability) 。 我 们 再 次 假定 齐 次 模型 ， 其 中 发 射 概率 不 依赖 
于 时 间 t。 观 测 到 的 一 系列 v。 便 形成 了 观测 序列 0。 状 态 序列 0 是 不 可 观测 的 ， 这 正 是 称 之 
为 “ 隐 ” 模 型 的 缘由 ,但 是 状态 序列 可 以 通过 观测 序列 推断 。 注 意 ， 通 常 许多 不 同 的 状态 
序列 O 可 以 产生 相同 的 观测 序列 0， 但 是 以 不 同 的 概率 产生 ; 正如， 给 定 服从 正 态 分 布 的 一 
个 独立 同 分 布 (iid) 的 样本 ， 有 无 限 多 对 可 能 的 (4，z ) 值 ， 我 们 感 兴趣 的 是 能 以 最 大 似 然 产 
生 这 个 样本 的 那 对 (4，e) 。 

还 需要 注意 的 是 ， 在 隐 马 尔 可 夫 模型 中 ， 随 机 性 源 自 两 个 方面 : 除了 从 一 个 状态 转移 到 
另 一 状态 是 随机 的 之 外 ， 系 统 在 一 个 状态 中 产生 的 观测 也 是 随机 的 。 

再 次 回 到 我 们 的 例子 : 隐 马 尔 可 夫 模 型 对 应 的 容器 - 球 实例 中 ， 每 个 容器 包含 不 同 颜色 





(13.8) 





(13.9) 
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的 球 。 以 b(m) 表 示 从 容器 j 取 出 一 个 m 颜色 球 的 概率 。 我 们 再 次 得 到 一 个 球 颜 色 的 观测 序 
列 ， 但 这 次 并 不 知道 球 取 自 哪个 容器 的 序列 。 因 此 好 像 容 器 置 于 一 个 布 帘 之 后 ， 一 个 人 随机 
地 从 一 个 容器 中 取 一 个 球 ， 而 展示 给 我 们 的 仅仅 是 球 而 不 展示 从 哪个 容器 中 取 球 。 球 展示 后 
被 放 回 容器 以 保持 发 射 概率 不 变 。 球 的 颜色 号 码 可 能 不 同 于 容器 号 码 。 例 如 ， 我 们 假定 有 三 
个 容器 ， 而 观测 序列 为 : 
0 = | 红 , 红 , 绿 , 蓝 , 黄 | 

在 前 面 的 情况 下 ， 知 道观 测 ( 球 的 颜色 ) ， 我 们 可 以 确切 知道 系统 状态 (容器 ) ， 因 为 对 
不 同 的 颜色 的 球 有 不 同 的 容器 ， 而 且 每 个 容器 只 含有 一 种 颜色 的 球 。 可 观测 马尔 可 夫 模型 是 
隐 马 尔 可 夫 模型 的 一 个 特例 ， 其 中 MEN, JERIURj Sm, bj(m) 为 1, AM 5(m) #0. fA [B09 
是 在 隐 马 尔 可 夫 模型 中 ， 一 个 球 可 能 取 自 任意 容器 。 在 这 种 情况 下 ， 对 于 相同 的 观测 序列 
0， 可 能 存在 多 个 可 能 的 状态 序列 Q 产生 0( 见 图 13-2) 。 























图 13-2 一 个 HMM 按时 间 展 开 为 格 ， 展 示 了 所 有 可 能 的 轨道 。 以 粗 线 
所 示 的 一 条 路 径 是 产生 观测 序列 的 真正 (未 知 ) 状态 轨迹 


对 上 述 进行 总 结 和 形式 化 ， 一 个 HMM 具有 以 下 元 素 : 
1. N: 模型 状态 个 数 

S = {SS Su} 
2. M: 以 字母 序 排列 的 不 同 观测 符号 的 个 数 
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3. 状态 转移 概率 : 
A=[a]， Pa, = Plan = Sla = S) 
4. 观测 概率 : 
B = [bw(m)]， 其 中 b(m) = P(0, = v. |g, = S) 310) 
5. 初始 状态 概率 : 


H-[m], 其 中 m= P(g =S) 
NAM 隐 含 地 定义 在 其 他 参数 中 ， 因 此 A = (A,B, TI) 被 取 作 一 个 HMM 的 参数 集 。 给 


定 入 ， 模 型 可 用 于 产生 任意 长 度 的 任意 个 数 观测 序列 ， 但 是 我 们 通常 感 兴趣 的 是 另 一 方向 ， 
即 通过 一 个 由 若干 观测 序列 组 成 的 训练 集 来 估计 模型 的 参数 。 
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13.4 HMM 的 三 个 基本 问题 


给 定 一 定数 量 的 观测 序列 ， 我 们 对 下 面 三 个 问题 感 兴趣 : 

1. 给 定 一 个 模型 A， 我 们 希望 估计 任意 给 定 观测 序列 0 = | 0,0,…0,| 的 概率 ， 即 P(O | 和)。 

2. 给 定 一 个 模型 及 一 个 观测 序列 0， 我 们 希望 找 出 状态 序列 0 = 19,9:…9gr| ， 其 具有 
产生 0 的 最 大 概率 ， 即 我 们 要 找到 最 大 化 P(Q10， 和) 的 O 。 

3. ,给 定 观测 序列 组 成 的 训练 集 X = | 0 和 | :， 我 们 希望 学 习 得 到 产生 x 的 概率 最 大 化 的 模 
型 ， 即 我 们 要 找到 最 大 化 P(X | A) AA’. 

让 我 们 逐一 来 看 这 些 问 题 的 解决 办 法 ， 每 个 办 法 又 用 于 解决 下 一 个 问题 ， 直 到 我 们 得 以 
计算 出 和 A， 或 者 是 从 数据 中 学 到 一 个 模型 。 


19.5 估 值 问题 


给 定 观测 序列 O = 10,0,-0, I 和 状态 序列 Q = | 99g:…9r} ， 给 定 状态 序列 8 观测 到 0 
的 概率 为 
r 
PCO| QA) = TT PCO, 1.4) = 0, CO) = by C01) 6,07) (13.11) 
我 们 无 法 直接 计算 上 式 ， 因 为 状态 序列 (的 值 ) 是 未 知 的 。 状 态 序列 Q 的 概率 是 


P(Q\A) = PG) [[ PG, la) 77,9, 70, sap (13.12) 
因而 联合 概率 为 
r : 
P(0,0]A) = PCa) TT PCa, | a.) II PCO, la) 


= mb, (0,)a, 5, (0,) a, b, (Or) (13.13) 
我 们 可 以 通过 边缘 化 这 一 联合 概率 ， 即 通过 在 所 有 可 能 的 0 ERM, KHW PO |A): 
P(O|A) = à P(0,Q |à) 
所 有 o 
但 是 ， 该 方法 是 不 现实 的 ， 因 为 如 果 假 定 所 有 的 概率 都 是 非 零 的 ， 则 有 NT 个 可 能 的 0。 
幸运 的 是 ， 存 在 计算 PCO | A) 的 有 效 方法 ， 称 之 为 正 反 向 过 程 (forward-backward procedure ) 。 
其 基于 的 思想 是 将 观测 序列 分 为 两 个 部 分 : 第 一 部 分 始 于 时 刻 1 到 时 刻 :， 第 二 部 分 始 于 时 
刻 t+1 直到 7。 
给 定 模 型 A， 我 们 定义 正 向 变量 (forward variable) a,(i) 为 到 时 刻 : 并 且 在 时 刻 的 状态 
为 S, 时， 观测 到 部 分 序列 | 0,…0,| 的 概率 : 
a(i) = P(0,--0,,4, = S; |A) (13. 14) 
这 种 方法 的 优点 在 于 可 通过 结果 累积 而 递归 地 计算 上 式 : 
= 初始 化 : 
a, (i) &'P(0,,q, = S, | A) 
= P(O, la; = $,A) PCR, = S; LA) 
= "ib,( 0, ) (13.15) 
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=) 递归 ( 见 图 13-3(a) ) : 





a) 正 向 b) 反 向 
图 13-3 正 反 向 过 程 a)a,(j) 的 计算 ; b)p,(i) 的 计算 





ea) = 0 
= P(0,--0,, | dir = SA)P(go = $12) 
= P(0…0,19 = SA)P(O | der = S,A)PCG = Sj |A) 
= P(0,50,,4,4 = S; |A)P(O, | Quer = SpA) 
= PCO. | dur = $,A) 也 PC00.4 -8$,44 = $,A) 


= P(O lgi = SpA) Y POr Ongui = S lg, = S,A) PC, = Sil A) 


= P(0, | dir = SA) Y, PCO, 0, |g, =SA)P = 5,14, = S ANPC = S; |A) 


PO, gs = SpA) X, PCO, 0,59, = Sl) PC = S ia 75,3) 


x 
[F a li)a,]b; (0) (13. 16) 


o, (i) BAR Y AE FARAS S, 的 前 :个 观测 的 概率 。 通 过 将 其 乘 以 概率 oj 得 到 转移 到 状态 S, 
的 概率 ,但 是 因为 及 个 可 能 的 前 驱 状 态 ， 我 们 需要 对 所 有 可 能 的 前 驱 状 态 5, 求 和 。 
5,CO,, ) 则 是 产生 第 (:+ 1) 个 观测 且 在 第 +1 时 刻 处 于 状态 S, 的 概率 。 

当 我 们 计算 正 向 变量 时 ， 容 易 计 算 观 测序 列 的 概率 : 


x 
P(0|A) = Y,P(0,a, = Sila) 


= Ya,(i) 
ar( 让 是 产生 整个 观测 序列 并 终止 于 状态 S, 的 概率 。 我 们 需要 对 所 有 可 能 的 终止 状态 进行 求 和 。 
计算 a,(i) 的 复杂 度 为 0( N*T) ， 并 且 这 在 合理 的 时 间 内 解决 我 们 第 一 个 估 值 问题 。 虽 然 
现在 我 们 并 不 需要 ， 但 是 我 们 类 似 地 定义 反 向 变量 (backward variable)B,(i), ， 作 为 在 时 刻 上 
处 于 状态 S, 并 且 观 测 到 部 分 序列 0,,,…O; 的 概率 : 


(13.17) 
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gis* 
B,G) = P(0,,--0, |q, = SA) (13.18) 
同样 可 以 按 如 下 进行 递归 计算 ， 不 同 的 是 这 次 是 逆序 进行 : 
= 初始 化 (任意 地 设 为 1) : 
Br(i) =1 
= 递归 计算 ( 见 图 13-3(b) ) : 
B,G) = P(0,,-0, |q, = $,A) 
= LPO 0,4 = Sla = $A) 
= DPC. Or ier = 5,4, = SA)P( = S lg, = 5,2) 
4 
=D PCO | der = Sg, = SA) 
7 
P(0,,-0, | gin = $59, = SA)P(g = S lg = SA) 
314 = BP(0 | air = SA) 
P(0,,-0, |a, = SA)P(qg = Sla, = $,A) 
= Dy O08) (13.19) 


当 处 于 状态 5, 时 ， 有 NN 种 可 能 的 下 一 状态 5,， 每 个 的 概率 为 cy。 在 该 状态 上 ， 我 们 产 
生 第 (4+1) 个 观测 ， 而 B,,,()) 表 示 了 时 刻 :+1 之 后 的 所 有 观测 的 概率 ， 以 此 类 推 。 

对 于 实现 需要 引起 注意 的 是 : a, 和 B, 的 计算 都 是 通过 多 个 小 概率 相 乘 实现 的 ， 而 当 序 
列 很 长 的 时 候 可 能 发 生 下 溢 。 为 了 避免 下 溢 ， 我 们 在 每 一 步 通过 将 a (i) RA c = x a, (j) 


对 其 进行 规范 化 。 同 样 将 Bp,(i) 除 以 相同 的 c, 对 其 进行 规范 化 (B,(i) 之 和 不 为 1) 。 
13.6 寻找 状态 序列 


我 们 现在 考虑 第 二 个 问题 ， 即 给 定 模型 A， 寻 找 以 最 高 的 概率 产生 观测 序列 0 = 10, 
0,…0+| 的 状态 序列 Q = [grl o 
XE X y, (G) 858 0 和 入 ， 在 时 刻 :处 于 状态 S, 的 概率 ， 它 可 以 计算 如 下 : 


yi) = P(q, = S, |0,A) (13. 20) 
_ PC | q, = S,A) Pg, = S| A) 
ü P(0|A) 


= P(0,--0, la = 5,A)P(0,,4:0, |q, = SA)P(9 = Si lA) 
EPC, =S |à) 
P(0,+0,,9, = Si |A)P(0,. 0, |g, = Si, A) 
$PO la, = S,,A)P(q, = S |A) 
(OR) 


SIL ORE (13.21) 
Yas) 
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这 里 我 们 看 到 a,(i) 和 p,(i) 是 如 何 很 好 的 在 它们 间 分 割 序列 : 正 向 变量 a,(i) 表 示 了 直 
到 时 刻 + 的 开始 部 分 序列 并 止 于 状态 S, 的 概率 ， 而 反 向 变量 B, C) 从 那里 开始 并 表示 了 直到 
时 刻 7 的 结尾 部 分 的 概率 。 

BF a,(i)B,(i) 表 示 了 在 时 刻 :、 系 统 处 于 状态 S, 的 整个 序列 的 概率 。 我 们 需要 将 其 除 
以 所 有 在 时 刻 c 可 能 转移 到 的 中 间 状 态 对 其 进行 正规 化 ， 并 保证 Y y.) = 1。 


为 找到 (目标 ) 状态 序列 ， 可 以 在 每 一 步 + 选 择 具 有 最 高 概率 的 状态 : 
a = arg maxy,(i) (13. 22) 
但 是 这 有 可 能 在 时 刻 :+ 和 时 刻 ++1 选择 S 和 5) 作为 最 合适 的 状态 ， 即 使 这 时 有 a, =0。 为 了 
找到 单个 最 好 的 状态 序列 (路 径 ) ， 我 们 使 用 基于 动态 规划 的 Viterbi 算法 ( Viterbi algorithm) , 
将 这 样 的 转移 概率 考虑 在 内 。 
给 定 状态 序列 Q = 9,g:…9r 和 观测 序列 O = 0,…0,， 定 义 6,( 引 为 在 时 刻 :代表 前 :个 观 
测 并 止 于 状态 S, 具有 最 高 概率 路 径 的 概率 : 
ô (i) = max p(gig2gi1,g, = Si,01°"0, | A) (13.23) 





从 而 我 们 可 以 递归 地 计算 5,,,(i) ， 而 最 优 路 径 可 以 从 时 刻 7 开始 ， 在 每 个 时 刻 选择 最 
合适 的 状态 来 反 向 读 取 。 算 法 如 下 : 
1. 初始 化 : 
6(i) = m5,(0,) 
yu G) =0 
2. 递归 : 


&,G) = max ô, (i)a; * b,(0,) 


V.) = arg max ô, (i)ay 
3. 终止 : 
p` = max8;(i) 
q; = arg max 6,(i) 
4. 路 径 (状态 序列 ) 回溯 : 
4 = Vin Ger) t = T-1,T-2,..,1 
使 用 图 13-2 的 网 格 结构 ，y,(j) 跟 踪 了 在 时 刻 +- 1 最 大 化 0, G) 的 状态 ， 也 就 是 说 ， 最 
佳 的 前 驱 状 态 。 在 正 向 阶段 Viterbi 算法 有 相同 的 复杂 度 ， 其 中 我 们 在 每 一 步 用 取 最 大 值 替 
代 求 和 。 


13.7 学 习 模型 参数 


我 们 现在 继续 第 三 个 问题 ， 从 数据 中 学 习 HMM。 使 用 最 大 似 然 方 法 ， 我 们 要 计算 最 大 
化 训练 序列 样本 X= 10*1+., 的 似 然 的 和 A"， 即 计算 最 大 化 P(X | 入) 的 A。 我 们 从 定义 便于 稍 
后 讨论 的 新 变量 开始 。 

EXEC, 站) 为 给 定 全 部 观测 0 和 入 ， 在 时 刻 : 处 于 状态 5, MERA t+1 处 于 状态 5 的 
概率 : 








B15 











(316) 
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&G,j) = P(q; = Si,g = S,|0,A) (13.24) 
上 式 可 计算 为 ( 见 图 13-4) : 
ECJ) = P(q, = 5.,g = $,10,A) 
_ PC Lg, = Si,g = SHA)P(g, = Sirdar = Sla) 








P(0|A) 
. PC | g, = Sg = 5,A)P(g = Sg, = Si,A)P(g, = SA) 
= P(0|A) 


1 
= (sco; )/ (979.1. = SAP On | gis = SpA) 


P(0,,4*0, | qui =°Sj,A) ayP(q, = S, |A) 
1 
= (Bway) 070. = 1A PCI Ls = SA) 
P(O, Or | gi = SrA) ay 


a (i)b (0, ) Bis Gay 
2, EPa = Sisti = $,0|A) 


= — Aab CO, Bio G) 


E E D aC) aub, O, Boa 

a,(i) 表 示 在 时 刻 :的 前 :个 观测 并 止 于 状态 $， 

的 概率 。 以 概率 a, 转 移 到 态 5,， 产 生 第 ++1 个 观 

测 ， 并 在 t+1 时 刻 从 S, 开始 继续 产生 其 余 的 观测 

序列 。 我 们 通过 将 名 (i, ji) 除 以 所 有 在 时 刻 + 和 时 
BY c+ 1 可 能 处 于 的 状态 对 其 进行 规范 化 。 

如 果 需 要 ， 我 们 可 以 通过 对 所 有 可 能 的 下 一 状 

态 ， 在 弧 概率 上 边缘 化 来 计算 在 时 刻 系统 处 于 状 

态 S 的 概率 : ‘ ay 


»G = X6) (13.26) B Dd RISE I 2 


需要 注意 的 是 ， 如 果 马 尔 可 夫 模 型 不 是 隐 的 而 是 可 观测 的 ， 则 y, (i) EC, j) 二 者 均 
为 0/1。 而 当 模 型 是 隐 马 尔 可 夫 模 型 时 ， 我 们 通过 软 计数 ( soft count) 这 样 的 后 验 概率 来 估计 
它们 。 正 如 监督 分 类 和 非 监 督 聚 类 之 间 的 区 别 ， 其 中 类 标号 相应 的 为 已 知 和 未 知 。 在 使 用 
EM 算法 的 非 监督 聚 类 中 (7. 4 节 ) ， 类 标号 未 知 ， 我 们 首先 (在 E- 步 又 中 ) 估 计 它 们 ， 而 后 
(在 M- 步 又 中 ) 使 用 这 些 估计 计算 参数 。 

类 似 地 ， 这 里 我 们 使 用 Baum- Welch 算法 ( Baum- Welch algorithm) ， 它 是 一 种 EM 方法 。 
在 每 次 迭代 中 ， 首 先 在 E- 步 ， 我 们 在 给 定 当前 A = (A，B，II) 情况 下 计算 (i, j) Ry C) 
的 值 ， 然 后 在 M- 步 ， 我 们 在 给 定 专 (iy 记 和 7i( 让 的 情况 下 再 计算 A。 这 两 个 步骤 交替 进行 
直到 收敛， 这 是 因为 ，P(O |A) 的 值 在 这 个 过 程 中 不 会 减 小 。 

假设 指示 变量 为 : 





(13.25) 
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xx p EVE (13.27) 
0 否则 
并 且 
Wt cures 并 且 g = 5, loon 
0 GH 


这 些 值 在 可 观测 马尔 可 夫 模型 情况 下 为 0/1， 而 在 HMM 情况 下 为 隐 随 机 变量 。 在 后 一 
种 情况 下 ， 我 们 在 E- 步 对 其 进行 估计 : 
E[z] = y(i) 
Elz) = & GJ) (13.29) 
在 M- 步 ,我 们 在 这 些 估计 值 上 计算 参数 。 从 5, 到 5, 的 转移 的 期 望 数 为 > &G, D, 
而 从 S, 转移 的 总 数 为 x y. G) o ARABA H HAA T FEET PaL DA s S, 转移 到 S, 的 概 


#: 


ipe a (13.30) 


在 状态 S, 观测 到 vn 的 概率 为 系统 处 于 S 状态 时 观测 到 v。 的 期 望 次 数 除 以 系统 处 于 S, 
状态 的 总 数 : 


T 


y. GC, = v.) 
Atk pl Oy 
yr 
当 有 多 个 观测 序列 X = | 0" 上 1*-, 时 ， 我 们 假定 它们 是 相互 独立 的 ， 


x 
PA) = pro la) 
参数 在 全 部 序列 的 所 有 观测 上 取 平均 : 





b(m) (13.31) 





K Tr 


A Evo; = vy) 


x Ted 


yyw 


1G) 


b(m) = 








> 
" 


(13.32) 
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18.8 连续 观测 


在 我 们 的 讨论 中 ， 我 们 假定 离散 的 观测 服从 多 项 分 布 : 
P(O, |q, = SA) = 下 sw) (13.33) 
其 中 
i= h WH 0, ziv (13.34) 
0 eH 
如 果 输 入 是 连续 的 ， 一 个 方法 是 将 其 离散 化 ， 然 后 使 用 这 些 离散 值 作为 观测 值 。 通 常 使 
用 向 量 量化 (7.3 节 )， 目 的 在 于 将 连续 值 转换 为 最 接近 的 参考 向 量 的 离散 值 。 例 如 ， 在 语音 
识别 中 ， 一 个 单词 发 音 被 分 割 为 小 的 语音 片段 ， 对 应 音节 或 部 分 音节 ; 预 处 理 后 ， 这 些 片段 
通过 向 量 量化 被 离散 化 ， 进 而 使 用 HMM 将 一 个 单词 发 音 建 模 为 一 个 离散 化 片段 的 序列 。 
我 们 还 记得 用 于 向 量 量化 的 人 -均值 是 高 斯 混合 模型 的 一 个 硬 版 本 : 


pCO, |q, = Sà) = à, G0», |q, = SGA) (13.35) 
其 中 
PCO, |q = SGA) ~ (ED) (13.36) 
并 且 观 测 保持 连续 性 。 在 这 种 高 斯 混合 情形 下 ， 可 为 分 量 参数 ( 以 合适 的 正则 化 来 保持 对 参 
数 个 数 进行 检验 ) 和 混合 比例 推导 出 EM 方程 (Rabiner 1989) 。 
现在 我 们 看 一 下 观测 为 连续 标量 的 情形 ，0, e 从 。 最 简单 的 方法 是 假定 其 服从 正 态 
分 布 : 


pCO, |q, = $,A) ~ N (m0?) (13.37) 
这 意味 在 状态 S,, WM AHN uu, HER o; 的 正 态 分 布 。 这 种 情形 下 ，M 步 的 公式 为 : 
Lr, 
jE, = ————— 13.38 
5T Xxx iind 
X»0X«0,-A» 
l4 
xi XO 


13.9 WAK HMM 


在 某 些 应 用 中 ， 除 了 观测 序列 0, 之 外 ， 我 们 还 有 一 个 输入 序列 x,。 我 们 可 以 将 处 于 状 
态 S, 的 观测 O, 以 输入 *, 为 条 件 ， 并 记 作 PO, | 9, = 5;,，x,)。 当 观测 为 连续 标量 的 情况 下 ， 
我 们 将 (13. 37) 式 替换 为 一 个 广义 模型 
PCO, |q, = $,2,A) ~ N (g(x 18) ,07) (13. 39) 
其 中 ， 比 如 假定 线性 模型 ， 我 们 有 
gx | w;,wo) = wx + wo (13. 40) 


如 果 观 测 是 离散 的 并 服从 多 项 分 布 ， 则 我 们 得 到 一 个 将 x, 作为 输入 并 产生 M 选 1 输出 
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的 分 类 器 ， 和 否则 我 们 可 以 产生 后 验 类 概率 并 保持 观测 的 连续 性 。 

类 似 地 ， 状 态 转移 概率 也 可 以 以 输入 为 条 件 ， 即 P(q., S, lg 2S, x). C HD 
过 一 个 选择 将 :+1 时 刻 的 状态 作为 在 :时 刻 的 状态 和 输入 的 函数 的 分 类 器 来 实现 。 这 就 是 
马尔 可 夫 混 合 专 家 模型 ( markov mixture of expert) ( Meila 和 Jordan 1996) ， 是 混合 专家 构架 
的 一 般 化 ( 见 12.8 节 ) ， 其 中 门 网 络 跟踪 其 在 前 一 时 步 所 作 的 决策 。 此 类 构架 也 称 为 给 
入 -输出 HMM(input-output HMM) ( Bengio 和 Frasconi 1996) 并 具有 模型 非 齐 次 的 优点 ; 在 
不 同 的 时 步 使 用 不 同 的 观测 和 转移 概率 。 在 每 一 个 状态 仍然 使 用 由 6, 参数 化 的 单一 模型 ， 
但 是 根据 所 看 到 的 输入 产生 不 同 的 转移 或 观测 概率 。 有 可 能 输入 并 非 单 值 ， 而 是 围绕 时 
刻 : 的 一 个 窗口 ， 使 得 输入 为 一 个 向 量 ; 这 样 可 以 处 理 输入 和 观测 序列 具有 不 同 长 度 的 
应 用 。 ) 

即使 没有 其 他 显 式 的 输入 序列 ， 带 输入 的 HMM 也 可 以 通过 关于 一 些 以 前 观测 的 预 设 函 
数 来 产生 一 个 “输入 ” 

x, = f(0,,5° 0,4) 

从 而 提供 一 个 大 小 为 7 的 背景 输入 窗口 。 


13. 10 HMM 中 的 模型 选择 


正如 任意 其 他 模型 一 样 ， 需 要 调整 HMM 的 复杂 度 ， 使 其 根据 面 对 的 数据 的 规模 和 性 质 
平衡 其 复杂 性 。 一 种 可 能 的 方法 是 调整 HMM 的 拓扑 。 在 完全 连接 (遍历 ) 的 HMM 中 ， 从 一 
个 状态 可 转移 到 任意 其 他 状态 ， 使 得 A 是 一 个 NxN 的 全 矩阵 。 在 一 些 应 用 中 ， 仅 有 某 些 转 
移 是 允许 的 ， 而 不 允许 的 转移 有 a, =0。 当 下 一 个 可 能 的 状态 较 少 ， 即 N'<N 时 ， 正 反 向 扫 
描 和 Viterbi 过 程 的 复杂 度 为 0( NN'T) ， 而 并 非 O( N*7) 。 

例如 ， 在 语音 识别 中 使 用 自 左 向 右 HMM (left-to-right HMM), ， 其 中 系统 状态 按时 间 排 
序 ， 随 着 时 间 的 推进 ， 状 态 下 标 增加 或 保持 不 变 。 这 样 的 约束 可 用 来 对 像 语音 一 样 其 性 质 随 
时 间 变 化 的 序列 进行 建 模 ， 并 且 当 到 达 一 个 状态 的 时 候 ， 我 们 近似 地 知道 其 前 的 状态 。 有 一 
MER: 系统 绝 不 向 具有 更 小 下 标的 状态 转移 ， 即 对 于 j <i 有 ay =0。 而 在 状态 下 标 上 跨度 
很 大 的 状态 转移 也 不 允许 ， 即 对 于 j>i+r 有 ay=0。 图 13-5 给 出 了 自 左 向 右 HMM 的 一 个 
例子 ， 其 中 r =2， 状 态 转移 矩阵 如 下 








图 13-5 自 左 向 右 HMM 的 例子 
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决定 HMM 复杂 度 的 另 一 因素 是 状态 的 个 数 N 因为 状态 是 隐藏 的 ， 因 此 其 个 数 未 知 并 
且 应 在 训练 前 选 定 。 这 需要 使 用 先 验 信息 对 其 进行 决定 并 通过 交叉 确认 ， 即 通过 检查 确认 序 
列 的 似 然 进 行 微调 。 

当 用 于 分 类 时 ， 可 使 用 一 组 HMM， 每 个 对 属于 一 类 的 序列 进行 建 模 。 例 如 ， 在 口语 单 
词 识别 中 ， 每 个 单词 的 样本 训练 一 个 不 同 的 模型 A,。 当 对 新 的 单词 发 音 0 进行 分 类 时 ， 所 
有 不 同 的 单词 模型 均 被 用 来 计算 PCO | A,) 。 然 后 使 用 贝 叶 斯 规则 得 到 后 验 概率 

P(0|A)P(A) 
X PCO |A) PCA) 


其 中 P(A,) 是 单词 i 的 先 验 概率 。 该 发 音 被 指派 到 具有 最 高 后 验 概率 的 单词 。 这 是 基于 似 然 
的 方法 ， 也 是 直接 训练 有 判别 力 的 HMM， 以 便 最 大 化 后 验 概率 。 当 存在 同一 单词 的 多 个 发 
音 时 ， 它 们 在 该 单词 的 HMM 中 被 定义 为 并 行路 径 。 

在 像 语音 这 样 的 连续 输入 的 情况 下 ， 困 难 之 处 在 于 将 信号 分 割 为 较 小 的 离散 观测 。 通 党 
使 用 取 作 基 元 部 分 的 音素 (phone) ， 并 通过 对 其 组 合 形成 更 长 的 序列 (例如 单词 )。 每 个 音素 
(通过 向 量 量化 ) 被 并 行 地 识别 ， 然 后 用 HMM 将 它们 顺序 组 合 。 如 果 语 音 基 元 简单 ， 则 
HMM 会 比较 复杂 ， 反 之 亦 然 。 在 连续 语音 识别 中 ， 单 词 并 非 一 个 接 一 个 的 以 清晰 间隔 进行 
发 音 ， 这 时 可 以 采用 多 级 别 上 的 层次 HMM; 一 层 用 于 组 合 音素 以 识别 单词 ， 另 一 层 通过 建 
立 语言 模型 对 单词 组 合 以 识别 语句 等 。 

近年 来 ， 神 经 网 络 /HMM 混合 模型 在 语音 识别 领域 比较 流行 ( Morgan 和 Bourlard 1995) 。 
在 这 样 的 模型 中 ， 一 个 多 层 感知 器 (第 11 章 ) 用 于 捕捉 时 间 局 部 而 不 是 比较 复杂 和 非 线 性 的 
基 元 ， 如 音素 ， 而 HMM 用 于 学 习 时 间 结 构 。 神 经 网 络 作为 预 处 理 器 并 将 时 间 窗 口中 的 原始 
观测 转换 成 比 向 量 量 化 的 输出 更 容易 建 模 的 形式 。 


13. 11 注释 


P(A,]0) = (13.41) 


HMM 是 一 项 成 熟 的 技术 ， 并 且 存在 基于 HMM 的 商业 语音 识别 系统 在 实际 使 用 ( Rabiner 
和 Juang 1993 ; Jelinek 1997) 。 在 11.12 节 ， 我 们 讨论 了 如 何 训练 多 层 感知 器 用 于 序列 识别 。 
与 延迟 神经 网 络 相 比 ，HMM 的 优点 在 于 不 用 事先 定义 时 间 窗口 ， 并 且 HMM 的 训练 效果 优 
于 递归 神经 网 络 。HMM 可 以 应 用 于 各 种 序列 识别 任务 。HMM 在 生物 信息 领域 的 应 用 在 Bal- 
di #I Brunak 1998 中 有 所 介绍 ， 在 自然 语音 处 理 中 的 应 用 在 Manning 和 Schütz 1999 有 所 介 
Mo HMM 也 用 于 在 线 手写 符号 识别 ， 它 与 光学 识别 的 不 同 之 处 在 于 书写 者 在 触觉 感知 的 书 
写 板 上 书写 ， 并 且 输 入 是 一 个 关于 笔尖 在 书写 板 上 移动 的 (x，y) 坐标 序列 ， 而 非 静态 的 图 
片 。Bengio 等 (1995) 介 绍 了 一 种 用 于 在 线 识别 的 混合 系统 ， 其 中 MLP 识别 单个 字符 ， 而 
HMM 将 字符 组 合 起 来 识别 单词 。 

在 任意 此 类 识别 系统 中 ， 一 个 关键 点 在 于 决定 多 少 工作 并 行进 行 以 及 将 什么 工作 留 做 串 
行 处 理 。 在 语音 识别 让， 音素 可 通过 一 个 并 行 系统 来 识别 ， 这 相当 于 假定 所 有 的 音素 声音 同 
时 发 出 。 然 后 ， 通 过 组 合 音素 顺序 识别 单词 。 在 其 他 系统 中 ， 如 果 相同 的 音素 有 多 个 版 本 ， 
比如 根据 之 前 以 及 之 后 音素 的 不 同 ， 音 素 本 身 可 被 设计 为 更 简单 的 语音 发 声 的 序列 。 并 行 工 
作 是 好 的 ， 但 仅仅 是 在 一 定 程度 上 ; 我 们 应 当 在 并 行 和 顺序 处 理 之 间 找 到 理想 的 平衡 。 为 了 
可 以 一 键 式 接 通 任意 人 的 电话 ， 我 们 可 能 需要 电话 上 有 百 万 按键 ;作为 替代 ， 我 们 用 十 个 按 
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键 并 以 序列 按键 来 拨 通 号 码 。 

Bengio 1999 讨论 了 HMM 的 多 种 应 用 以 及 多 种 扩展 ， 如 有 判别 力 的 HMM. HMM 可 看 作 
是 贝 叶 斯 网 络 (3.7 节 ) ，HMM 上 的 推断 及 学 习 操 作 和 贝 叶 斯 网 络 中 相应 部 分 类 似 (Smyth、 
Heckerman 和 Jordan 1997) 。 最 近 提出 了 各 种 HMM 的 扩展 ， 如 因子 HMM， 其 中 每 一 时 间 步 
骤 ， 一 定数 量 的 状态 集体 生成 观测 ;以 及 树 结构 HMM， 其 中 存在 状态 的 一 个 层次 关系 。 
Ghahramani (2001 ) 的 介绍 性 论文 对 这 些 扩 展 及 其 训练 的 近似 方法 进行 了 讨论 。 


13.12 习题 


1. 给 定 一 个 有 三 个 状态 S,, S, S, 的 可 观测 马尔 可 夫 模型 ， 其 初始 概率 为 : 
II = [0.5,0.2,0.3]" 


0.4 0.3 0.3 
^p: 0.6 0.2 


0.1 0.1 0.8 


转移 概率 为 


产生 100 个 有 1000 个 状态 的 序列 。 

2. 使 用 上 题 中 产生 的 数据 来 估计 TL 和 A， 并 和 产生 这 些 数据 的 参数 进行 比较 。 

3. 形式 化 一 个 二 阶 马 尔 可 夫 模型 。 其 参数 是 什么 ? 如 何 对 一 个 给 定 的 状态 序列 计算 其 概率 ? 
对 于 一 个 可 观测 模型 如 何 学 习 其 参数 ? 

4. 证 明 任意 二 阶 (或 更 高 阶 ) 马尔 可 夫 模型 可 转化 为 一 个 一 阶 马尔 可 夫 模 型 。 

5. 一 些 研究 者 将 马尔 可 夫 模型 定义 为 当 穿越 一 条 弧 ( 边 ) 的 时 候 产生 一 个 观测 ， 而 非 到 达 一 
个 状态 。 这 种 模型 的 能 力 是 否 比 我 们 讨论 的 模型 更 强 ? 

6. 从 一 个 你 选择 的 HMM 产生 训练 和 确认 序列 。 在 相同 的 训练 集 上 通过 变化 隐藏 状态 的 个 数 
来 训练 多 个 不 同 的 HMM 并 计算 相应 的 确认 似 然 。 观 察 确认 似 然 如 何 随 着 状态 个 数 的 增加 
而 变化 。 
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第 14 章 “分 类 算法 评估 和 比较 


机 器 学 习 算 法 产生 的 分 类 器 依赖 于 训练 集 ， 并 需 对 分 类 器 进行 统计 检验 来 (i) 评 估 分 类 
算法 的 期 望 误差 率 ， 以 及 (ii) 比较 两 个 分 类 算法 的 期 望 误 差 率 ， 以 判别 哪个 更 好 。 本 章 ， 我 
们 回顾 假设 检验 并 讨论 评估 和 比较 误差 率 的 检验 。 


14.1 引言 


在 前 面 章节 中 ， 我 们 讨论 了 几 种 分 类 算法 ， 并 知道 对 于 一 个 给 定 的 应 用 ， 多 种 分 类 算法 
都 是 可 行 的 。 现 在 ， 我 们 关心 的 是 以 下 两 个 问题 : 

l. 如 何 评估 一 个 分 类 算法 在 给 定 问题 上 的 期 望 误差 率 ? 即 ， 已 使 用 分 类 算法 训练 一 个 
分 类 器 ， 我 们 是 否 能 够 以 足够 的 置信 度 说 在 之 后 的 实际 应 用 中 ， 其 期 望 误 差 率 将 小 于 ， 比 如 
说 , 2%? 

2. 给 定 两 个 分 类 算法 ， 如 何 就 给 定 的 应 用 来 判断 一 个 算法 的 误差 率 比 另 一 个 低 ? 进行 
比较 的 分 类 算法 可 能 是 不 同 的 ， 例 如 ， 参 数 的 与 非 参 数 的 ， 抑 或 它们 可 能 使 用 不 同 的 超 参数 
设置 。 例 如 ， 给 定 一 个 具有 4 个 隐藏 单元 的 多 层 感知 器 (第 11 章 ) 和 另 一 个 具有 8 个 隐藏 单 
元 的 感知 器 ， 我 们 希望 可 以 判断 哪个 具有 更 低 的 期 望 误差 。 或 者 在 使 用 -最 近邻 分 类 器 (第 
8 章 ) 时 ， 我 们 希望 找到 最 佳 的 上 值 。 

我 们 不 能 只 看 训练 集 上 的 误差 并 据 此 来 判定 。 根 据 定义 ， 训 练 集 上 的 误差 率 总 会 小 于 包 
含 训练 时 未 见 过 的 实例 的 检验 集 上 的 误差 率 。 类 似 地 ， 训 练 误差 不 能 用 于 比较 两 个 算法 。 因 
为 在 训练 集 上 ， 具 有 更 多 参数 的 较 复杂 模型 几乎 总 是 比 简单 模型 的 误差 更 小 。 

因此 ， 正 如 我 们 反复 讨论 的 ， 我 们 需要 一 个 不 同 于 训练 集 的 确认 集 。 而 且 即 使 是 在 确认 
集 上 ， 一 轮 运行 也 未 必 足 够 。 其 原因 有 二 : 首先 ， 训 练 集 和 确认 集 可 能 较 小 并 且 可 能 包含 异 
常 实例 ， 如 噪声 或 离 群 点 ， 可 能 会 对 我 们 产生 误导 。 第 二 个 原因 在 于 学 习 算 法 有 可 能 依赖 于 
其 他 影响 泛 化 的 随机 因素 。 例 如 ， 对 于 使 用 后 向 传播 训练 的 一 个 多 层 感知 器 ， 由 于 梯度 下 降 
收敛 于 局 部 极 小 ， 初 始 权重 会 影响 最 终 的 权重 ， 并 且 以 完全 相同 的 结构 和 训练 集 ， 以 不 同 的 
初始 权重 开始 训练 有 可 能 最 终 产生 多 种 分 类 器 ， 这 些 分 类 器 在 相同 的 确认 集 上 有 不 同 的 误差 
率 。 因 而 我 们 需要 多 轮 运行 ， 以 期 在 这 些 随 机 源 上 取 平 均值 。 如 果 我 们 只 是 训练 和 确认 一 
次 ， 则 无 法 检验 这 些 因素 的 影响 ; 只 有 在 学 习 方 法 的 代价 很 高 以 至 于 只 能 训练 和 确认 一 次 ， 
这 才 是 可 以 接受 的 。 

我 们 在 一 个 数据 集 上 运行 分 类 算法 classification algorithm ) 来 产生 一 个 分 类 器 。 如 果 我 
们 只 训练 一 次 ， 我 们 只 得 到 一 个 分 类 器 和 一 个 确认 误差 。 为 了 平均 (来 自 训练 数据 、 初 始 权 
重 等 的 ) 各 种 随机 性 ， 我 们 使 用 相同 的 算法 来 产生 多 个 分 类 器 。 进 而 在 多 个 确认 集 上 检验 这 
些 分 类 器 并 记录 确认 误差 的 一 个 样本 。( 当然 ， 所 有 训练 和 确认 集 均 应 取 自 同一 应 用 ) R 
们 对 分 类 算法 的 评估 基于 这 些 确认 误差 的 分 布 (distribution) 。 我 们 可 使 用 这 一 分 布 来 评估 
分 类 算法 在 应 用 问题 上 的 期 望 误差 率 (expected error rate) ， 或 者 将 其 与 其 他 分 类 算法 的 误差 
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率 分 布 进行 比较 。 

在 讨论 这 一 过 程 如 何 完成 之 前 ， 需 要 重点 强调 以 下 几 点 : 

1. 需要 牢记 的 是 : 无 论 从 我 们 的 分 析 中 获得 何 种 结论 ， 该 结论 限于 所 给 定 的 数据 集 。 
我 们 并 不 用 独立 于 领域 的 方式 来 对 分 类 算法 进行 比较 ;而 是 针对 某 一 特定 应 用 进行 比较 。 一 
般 而 言 ， 我 们 不 对 学 习 算法 的 期 望 误 差 率 做 任何 讨论 ， 也 不 将 一 个 学 习 算法 和 另 一 个 进行 比 
较 。 我 们 所 得 到 的 任何 结果 只 对 这 个 特定 的 应 用 有 效 ， 而 且 仅 在 该 应 用 可 以 由 我 们 所 使 用 的 
样本 代表 的 意义 上 有 效 。 而 且 无 论 如 何 ， 都 没有 诸如 “最 好 的 ”学 习 算 法 之 说 。 对 任意 学 
习 算 法 ， 均 有 一 个 数据 集 使 其 非常 准确 ， 而 另 一 个 数据 集 使 其 非常 差 。 当 我 们 说 一 个 分 类 算 
法 好 时 ,我 们 只 是 量化 其 归纳 偏 倚 在 多 大 程度 上 与 数据 的 性 质 一 致 。 这 称 之 为 没有 免费 的 午 
A 3k N (No free lunch theorem) 。 

2. 将 给 定数 据 划 分 为 一 定数 量 的 训练 集 和 确认 集 对 仅仅 是 为 了 试验 。 一 旦 所 有 的 试验 
完成 ， 并 且 决 定 了 最 终 方法 或 超 参 数 ， 为 了 训练 最 终 的 分 类 器 ， 我 们 可 以 使 用 先前 用 于 训练 
或 确认 的 所 有 已 标记 数据 。 

3. 由 于 我 们 还 使 用 确认 集 进 行 试验 ， 比 如 ， 选 择 两 个 分 类 算法 中 较 好 的 一 个 ， 或 决定 
何 时 停止 学 习 ， 因 此 确认 集 实际 上 成 为 了 我 们 所 使 用 数据 的 一 部 分 。 在 结束 所 有 的 试验 之 
后 ,我 们 选 定 了 某 一 特定 的 分 类 算法 并 且 和 希望 报告 其 期 望 误差 率 ， 为 此 我 们 应 使 用 另外 一 个 
在 训练 最 终 系统 过 程 中 未 曾 使 用 过 的 检验 集 (test set) 。 该 数据 应 当 在 之 前 的 训练 或 确认 过 
程 中 从 未 使 用 过 ， 并 且 应 足够 大 使 得 误差 估计 有 意义 。 因 此 ， 给 定 一 个 数据 集 ， 我 们 应 当 留 
一 部 分 数据 作为 检验 集 ， 而 其 余 的 数据 用 于 训练 和 确认 。 通 常 ， 像 我 们 在 下 一 节 中 看 到 的 那 
样 ， 我 们 可 以 留 三 分 之 一 的 样本 作为 检验 集 ， 使 用 另外 三 分 之 二 做 交叉 确认 以 产生 多 
对 训练 /确认 集 。 因 而 ， 给 定 特定 学 习 算 法 和 模型 结构 ， 训 练 集 是 用 于 参数 优化 ; 确认 集 是 
用 于 优化 学 习 算 法 或 模型 结构 的 超 参 数 ; 而 一 旦 二 者 均 被 优化 ， 检 验 集 才 在 最 后 使 用 。 例 
如 ， 对 一 个 MLP( 多 层 感知 器 ) 而 言 ， 训 练 集 用 于 优化 权重 ， 确 认 集 用 于 确定 隐藏 单元 个 数 、 
训练 多 久 、 学 习 率 等 。 一 旦 选择 了 最 佳 的 MLP 配置 ， 其 最 终 的 误差 率 在 检验 集 上 计算 。 而 
对 -NN 而 言 ， 训 练 集 作为 查找 表 存 放 ; 我 们 在 确认 集 上 优化 距离 度量 和 上 上 值 ， 最 后 在 检验 
集 上 进行 检验 。 

4. 本 章 ， 我 们 就 误差 率 对 分 类 算法 比较 ， 但 应 牢记 ， 在 现实 中 ， 误 差 仅仅 是 影响 决策 
的 一 个 标准 。 一 些 其 他 标准 是 (Turney 2000) : 

当 使 用 损失 函数 ， 而 非 0/1 损失 对 误差 进行 泛 化 时 的 风险 (3. 3 H) o 
训练 时 间 和 空间 复杂 度 。 

检验 时 间 和 空间 复杂 度 。 

可 解释 性 ， 即 使 用 的 方法 是 否 允 许 提取 可 以 由 专家 检查 和 确认 的 知识 。 
易于 编程 。 

上 述 标准 的 相对 重要 程度 依赖 于 应 用 。 例 如 ， 如 果 在 工厂 中 只 进行 一 次 训练 ， 那 么 训 
练 的 时 间 和 空间 复杂 度 就 不 重要 ; 如 果 在 应 用 中 对 可 适应 性 有 要 求 ， 则 训练 的 时 间 和 空 
间 复 杂 度 就 变 得 重要 了 。 多 数学 习 算法 使 用 0/1 损失 并 以 误差 最 小 化 为 唯一 标准 ; 最 近 ， 
提出 了 这 些 算法 的 变种 ， 即 代价 敏感 学 习 ( cost- sensitive learning ) 算法 把 其 他 标准 也 考虑 
在 内 。 
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14.2 交叉 确认 和 再 抽样 方法 


我 们 的 第 一 个 需求 是 从 一 个 数据 集 X 中 获得 一 定数 目的 训练 集 /确认 集 对 。 为 此 ， 如 果 
样本 X 足够 大 ， 我 们 可 以 随机 地 将 其 分 为 天 个 部 分 ， 然 后 将 每 一 部 分 随机 地 分 为 两 部 分 ， 一 
半 用 于 训练 ， 另 一 半 用 于 确认 。K 通常 为 10 或 30。 不 幸 的 是 ， 数 据 集 从 未 有 如 此 之 大 。 因 
此 我 们 应 在 小 数据 集 上 尽力 而 为 。 其 方法 是 以 不 同 分 割 来 重复 使 用 它 ; 这 称 为 交叉 确认 
(cross-validation) 。 其 潜在 的 问题 是 交叉 确认 使 得 错误 比例 是 相互 依赖 的 ， 因 为 这 些 不 同 集 
合共 享 了 数据 集 。 

因此 ， 给 定 一 个 数据 集 X， 我 们 希望 可 以 从 该 数据 集 产生 对 训练 /确认 集 1T,， 
Yi 和.1。 我 们 要 保持 训练 和 确认 集 尽 可 能 大 ， 以 保证 误差 估计 的 鲁 棒 性 ; 同时 ， 要 保持 不 同 
集合 间 的 交集 尽 可 能 小 。 我 们 还 要 确保 当 抽取 数据 子 集 的 时 候 ， 类 信息 以 正确 比例 被 表示 ， 
从 而 使 类 的 先 验 概率 不 受 影响 ; 这 称 为 分 层 ( stratification)。 如 果 一 个 类 在 整个 数据 集中 占有 
20% 的 实例 ， 则 在 所 有 取 自 该 数据 集 的 抽样 集中 ， 该 类 也 应 约 占 20% 的 实例 。 


14.2.1 K- 折 交叉 确认 


在 人 - 折 交 叉 确 认 (K-fold cross-validation) 中 ， 数据 集 X 被 随机 的 划分 为 等 份 X，，i = 1，…， 
K。 为 了 产生 一 对 训练 /确认 集 ， 我 们 将 K 份 数 据 中 的 一 份 保留 为 确认 集 ， 其 余 K - 1 份 合并 
为 训练 集 。 重 复 尺 次 ， 每 次 保留 尺 份 中 的 另 一 份 数 据 ， 可 得 到 对 数据 集 : 
Vi =X, Ti =X, UX, U = UX 
V2 =X. Ti =X, UX, U | UX 


Ve =Xk Tk =X, UX;U c U Xe 

这 种 方法 有 两 个 问题 : 首先 ， 为 了 保持 训练 集 较 大 ， 我 们 允许 确认 集 较 小 。 其 次 ， 训 练 
集 在 相当 大 程度 上 重复 ， 确 切 的 说 ， 任 意 两 个 训练 集 有 K -2 份 数据 重复 。 

K 一 般 为 10 或 30。 当 天 增加 的 时 候 ， 用 于 训练 的 实例 的 比例 增加 因而 产生 更 为 鲁 棒 的 
估计 ,但 是 确认 集 相应 变 小 。 此 外 ， 也 带 来 了 将 分 类 器 训练 次 的 代价 ， 这 一 代价 随 着 下 
增加 而 增加 。K- 折 交叉 确认 的 一 个 极端 情况 是 N 个 实例 的 数据 集 上 的 留 一 (leave-one-out)， 
其 中 只 保留 一 个 实例 作为 确认 集 ， 其 余 N -1 个 实例 作为 训练 集 。 由 此 我 们 通过 在 每 次 迭代 
中 保留 不 同 的 实例 而 得 到 N 对 不 同 的 训练 /确认 集 。 这 种 方法 通常 用 于 诸如 医疗 诊断 的 应 用 
中 ， 这 类 应 用 中 很 难 找到 标记 数据 。 留 一 无 法 进行 分 层 。 


14.2.2 5x2 交叉 确认 


Dietterich(1998 ) 提出 了 5 x2 交叉 确认 (5 x2 cross-validation) ， 其 中 使 用 等 大 小 的 训练 

和 确认 集 。 将 数据 集 X 随机 地 分 为 两 部 分 : X'” 和 Xt”， 这 样 就 给 出 了 第 一 对 训练 和 确认 集 : 
Ti Xi 和 Ys =Xi”。 然 后 我 们 交换 两 个 半 份 的 角色 来 得 到 第 二 对 训练 和 确认 集 : Ta =X 
w o 


MV: =X，。 这 就 是 第 一 次 对 折 ; X 表示 了 第 i 次 对 折 中 的 第 j 个 半 份 。 
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为 了 得 到 第 二 次 对 折 ， 我 们 随机 的 将 X 打 乱 并 将 其 划分 为 新 的 对 折 X ROG o ATL 
过 从 xX 中 随机 无 放 回 抽样 来 实现 ， 即 ,XUXP =X UX? =XY。 然 后 对 调 二 者 来 得 到 另 一 
对 数据 集 。 我 们 再 做 第 三 次 对 折 ， 因 为 每 次 对 折 我 们 得 到 两 对 数据 ， 做 五 次 对 折 我 们 共 得 到 
10 个 训练 和 确认 集 : 
Tr FXO Vy eX 
Tr =X, yxp 
Ts =X)? Va =X? 
Tam X Vere 
qom Xia Ve. mM 
T wmm MR 
当然 ， 我 们 可 以 做 超过 五 次 对 折 以 获得 更 多 对 的 训练 /确认 集 ， 但 是 Dieterich ( 1998) 4 
出 在 五 次 对 折 之 后 ， 各 集合 共享 了 许多 实例 ， 过 度 的 重 全 使 得 由 此 计算 的 统计 量 ， 确 切 的 
说 ,确认 误差 率 变 得 相互 依赖 而 无 法 增加 新 的 信息 。 即 使 只 是 有 五 次 对 折 ， 各 集合 也 是 有 交 
集 而 统计 量 也 相互 依赖 ， 但 是 直到 五 折 之 前 这 些 影响 我 们 还 是 可 以 容忍 的 。 而 从 另 一 方面 来 
说 ， 如 果 使 用 更 少 的 对 折 次 数 ， 我 们 获得 更 少 的 数据 ( 少 于 10 对 ) ， 而 将 无 法 获得 足够 大 的 
样本 来 拟 合 分 布 并 进行 假设 检验 。 


14.2.3 自助 法 


为 了 从 单个 样本 中 产生 多 个 样本 ， 蔡 代 交叉 确认 的 另 一 个 选择 是 自助 法 (bootstrap) ， 即 
从 原始 样本 中 以 有 放 回 地 ( with replacement) 抽取 实例 的 方法 来 产生 新 的 样本 。 自 助 样本 可 能 
比 交 叉 确认 样本 有 更 多 的 交集 ， 因 而 其 估计 可 能 更 为 相互 依赖 ; 但 对 小 数据 集 ， 这 种 方法 被 
认为 是 最 好 的 方法 。 

在 自助 法 中 ,我们 从 大 小 为 N 的 数据 集中 有 放 回 地 抽取 N 个 实例 。 如 果 只 确认 一 次 ， 
则 原始 数据 集 作为 确认 集 ; 否则 ， 我 们 可 以 重复 多 次 来 产生 多 个 训练 /确认 集 。 选 取 一 个 
实例 的 概率 为 1/N; 不 选取 这 个 实例 的 概率 为 1 - 1/N。N 次 抽取 均 未 选取 这 个 实例 的 概 
率 为 : 


这 意味 着 训练 集 包含 了 大 约 63.2% 的 实例 ; 也 就 是 说 ,系统 未 在 36.8% 的 数据 上 进行 
训练 ， 因 而 误差 估计 是 悲观 的 。 解 决 方法 是 重复 该 过 程 多 次 并 取 平 均值 。 


14.3 误差 度量 


当 ( 损 失 函 数 ) 使 用 0/1 损失 时 ， 所 有 的 错误 都 有 相同 的 影响 ， 而 我 们 对 误差 的 计算 是 
基于 混淆 矩阵 (confusion matrix) 的 ( 表 14-1) 。 我 们 可 将 误差 率 定义 为 : 


maa - M LPP (14.1) 
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表 14-1 RAER 


预测 的 类 
是 理 














是 TP: 真正 FN: 假 负 

* FP. HUE TN: 真 负 
其 中 N= |TP| + | FP| + | TN| + | FN | 是 确认 集中 的 实例 总 数 。 对 于 采用 任意 损失 函数 
的 一 般 情况 而 言 ， 实 例 总 数 应 该 被 替换 为 确认 集 上 的 风险 (3.3 节 ) 。 

AT AH K>2 RHR, ARAM (class confusion matrix) 是 很 有 用 的 。 类 混淆 矩 
阵 是 一 个 KxK 的 和 矩阵， 其 元素 (i, j) 是 属于 C, 类 但 却 误 分 到 C, 类 的 实例 的 个 数 。 理 想 情 
况 下 ， 所 有 的 非 对 角 线 元 素 均 应 为 0， 表 示 没 有 误 分 类 。 类 混淆 矩阵 允许 我 们 确定 误 分 类 发 
生 时 的 类 型 ， 即 是 否 有 两 个 类 经 常 被 混淆 。 

为 了 调整 分 类 器 ， 另 一 个 方法 是 绘制 接受 者 操作 特征 ( receiver operating characteristic , 
ROC) 曲线 ， 表 示 命 中 率 和 假 警报 率 的 比值 , 即 | TP |7( | TP| + | FN |) | FP|/( | FP| + 
| TN | ) ,其 形式 类 似 于 图 14-1。 对 于 每 种 分 类 算法 ， 存 在 一 个 参数 ， 例 如 决策 阔 值 ， 我 们 
可 以 使 用 它 改变 真正 与 假 正 比 。 增 加 真正 的 数量 也 会 增加 假 警报 的 数量 ; 而 降低 假 警报 的 次 
数 也 会 降低 命中 的 次 数 。 基 于 特定 的 应 用 ， 我 们 根据 这 些 特征 (命中 率 、 假 报警 率 等 ) 的 性 
能 /代价 情况 在 这 条 曲线 上 确定 一 个 点 。 





命中 率 : ITPV (ITPI#+IFNM) 





假 报警 率 : IFPU (1FPI+ITNI) 


图 14-1 典型 的 ROC 曲线 。 每 个 分 类 器 有 一 个 参数 ， 例 如 一 个 阔 值 ， 
该 参数 使 得 我 们 可 以 在 曲线 上 移动 ， 并 根据 命中 和 假 警报 
( 即 真正 和 假 正 ) 之 间 的 相对 重要 程度 来 在 曲线 上 确定 一 个 点 


14.4 区 间 估 计 


下 面 快速 回顾 一 下 我 们 在 假设 检验 中 将 用 到 的 区 间 估 计 (interval estimation)。 点 估计 ， 
如 最 大 似 然 估计 ， 是 对 参数 9 指定 一 个 值 。 在 区 间 估 计 中 ， 我们 以 某 种 置信 度 对 参数 9 位 于 
的 区 间 进 行 确定 。 为 了 获取 此 类 区 间 估 计 ， 我们 利用 点 估计 的 概率 分 布 。 
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例如 ， 我 们 要 从 样本 X = { zx 上 :中 估计 正 态 密度 的 均值 w。m = x'/N 是 样本 平均 值 ， 


并 且 是 对 均值 的 点 估计 。m 是 正 态 分 布 值 之 和 ， 因 而 也 是 正 态 的 , m~N(p, o77N). Ril 
以 单位 正 态 分 布 来 定义 该 统计 量 : 


VN en za uz 
o 


(14.2) 


我 们 知道 95% 的 Zz 落 在 ( -1.96, 1.96) p, BY, P| -1.96 <z<1.96| =0.95， 因 而 我 们 


有 ( 见 图 14-2) 


或 等 价 地 


P{ -1.96 < /N =H). <1, 96} = 0.95 
v 


p{m -1.96 <n <m + 1.96 Fh = 0.95 


单位 正 态 Z=N (0, 1) 














SS ES TT Rs Vay haa Tae 


图 14-2 在 单位 正 态 分 布 中 ，95% 的 值 位 于 - 1.96 ~1.96 之 间 


也 就 是 说 “以 95% 的 置信 度 ", 落 在 样本 平均 值 正 负 1. 96cZVN 个 单位 的 区 间 内 。 这 
即 是 双 侧 置信 区 间 (two-sided confidence interval) 。 以 99% 的 置信 度 , u 落 在 (m -2.850//N, 
m+2.85g/VN) 中 。 也 就 是 说 ， 如 果 我 们 需要 更 高 的 置信 度 ， 则 区 间 增 大 。 随 着 样本 集 的 规 
BENIN, IX tbe 

这 可 以 按 如 下 方法 推广 到 任意 置信 度 : 令 zx。 使 得 


P\Z>z2z,) =a0<a<1 


由 于 2 是 关于 均值 对 称 的 ， 所 以 有 zi 22 = aH PIX<-2,,) PIX 24] =0/2. A 
而 ， 对 于 任意 给 定 的 置信 水 平 1-a， RNA 


P{-2z,<Z<z,,}| =1-a 
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并 且 
P|- aa e D <2} = l-a 
或 
P(m -ra nem tin hela (14.3) 


因而 ,对 于 任意 a， 可 以 对 jz 计算 置信 和 度 为 100(1 — o) % 的 双 侧 置信 区 间 。 
类 似 的 ， 如 有 Plz 二 1.64| =0.95， 则 我 们 有 ( 见 图 14-3) 


P[/w € =») <1.64}= 0.95 
z 


P{m -1.64 <p} = 0.95 


并 且 (m -1. 640//N, œ ) 是 六 的 95% 的 单 侧 上 置信 区 间 (one-sided upper confidence interval) , 


其 定义 了 一 个 下 界 。 一 般 而 言 , 六 的 100(1 -a)% 的 单 侧 置信 区 间 可 通过 下 式 计算 
P{m -1 mmo (14.4) 


类 似 地 ， 可 计算 定义 上 界 的 单 侧 下 置信 区 间 。 
在 上 述 各 区 间 中 ， 我 们 使 用 了 c ， 即 我 们 假定 方差 是 已 知 的 。 如 果 方 差 未 知 ， 则 我 们 可 
用 样本 方差 


S = Y (X -myAG -1) 
来 替代 o’. RIAK ~N (u, o) RE, (ON - S70? 是 自由 度 为 N -1 的 卡 方 (分 布 )。 


我 们 同样 知道 m 和 S^ 是 相互 独立 的 。 于 是 ，VN(m - 40/8 是 自由 度 为 N-1 的 :分 布 
(4.3.7 节 )， 记 作 


Mina) Ata, (14.5) 


因而 ， 对 任意 的 ee (0，1/2)， 我 们 可 以 使 用 该 :分 布 (+ distribution) ， 而 非 单 位 正 态 分 布 Z 
确定 的 值 来 定义 一 个 区 间 


Pht aan IN PEM EN ETE 
REH taani = -ton.w-! 而 有 


Pm ~ tean- Am rye a =l-a 
类 似 地 ， 可 定义 单 侧 置信 区 间 。: 分 布 比 单位 正 态 分 布 有 更 大 的 展 宽 ( 较 长 的 尾 ) ， 因 而 
1 分 布 给 出 的 区 间 一 般 更 大 ; 考虑 到 未 知 方差 所 引入 的 附加 的 不 确定 性 的 存在 ， 这 应 该 在 预 
料 之 中 。 
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单位 正 态 Z=N (0,1) 














图 14-3 单位 正 态 分 布 的 95% 落 在 1.64 之 前 


14.5 假设 检验 


在 某 些 应 用 中 ， 我 们 可 能 希望 使 用 样本 对 涉及 参数 的 一 些 特定 假设 进行 检验 ， 而 不 是 显 
式 地 估计 某 些 参数 。 例 如 ， 我 们 可 能 希望 检验 均值 是 否 小 于 0.02， 而 不 是 估计 均值 。 如 果 
随机 样本 与 所 考虑 的 假设 一 致 ， 则 我 们 说 该 假设 被 “接受 "， 否 则 ， 我 们 说 它 被 “拒绝 "。 
但 是 ， 当 我 们 做 这 样 的 决定 时 ， 我 们 并 非 说 假设 为 真 ， 而 是 说 在 一 定 的 置信 程度 上 ， 样 本 数 
据 和 假设 看 起 来 是 一 致 的 。 

在 假设 检验 (hypothesis testing) 中 ， 方 法 如 下 : 我 们 定义 一 个 服从 某 一 分 布 的 统计 量 来 
判断 假设 是 否 正 确 。 如 果 从 样本 中 计算 的 统计 量具 有 足够 高 的 概率 是 取 自 该 分 布 ， 则 接受 该 
假设 ; 否则 拒绝 它 。 

假设 有 一 个 样本 取 自 一 个 均值 未 知 、 方 差 0^. 已 知 的 正 态 分 布 ， 而 我 们 希望 对 一 个 关 
于 的 假设 进行 检验 ， 如， 其 值 是 否 等 于 一 个 指定 的 值 ke。 该 假设 记 作 ,并 称 之 为 原 假设 
(null hypothesis) 

H: p = po 
相对 的 备 择 假 设 为 
H, : p * po 

m 是 的 点 估计 ， 而 且 当 m 和 jp。 相去 不 远 的 时 候 ， 接 受 H, 是 合理 的 。 这 正 是 要 使 用 区 间 
估计 的 地 方 : 我们 以 显著 水 平 (level of significance) a 接受 该 假设 ,如 果 jp。 位 于 100(1 -a)% 的 
置信 区 间 ， 即 H, 被 接受 ， 如 果 

ESOR (= sasta) (14.6) 

这 是 一 个 双 侧 检验 (two-sided test) 。 如 果 当 假设 是 正确 的 时 候 我 们 拒绝 了 它 ， 这 就 是 一 

个 第 一 类 错误 (type I error), ， 而 在 检验 之 前 设 定 的 o 值 定义 了 我 们 可 以 在 多 大 程度 上 容忍 
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第 一 类 错误 ， 通 常 取 值 为 : a =0.1，0.05，0.01( 见 表 14-2)。 第 二 类 错误 (type I error) JÈ 
如 果 在 真实 均值 y 和 jo 不 相等 的 情况 下 我 们 接受 了 原 假设 。 当 真实 均值 为 时 接受 Hy 的 概 
SE ui 的 函数 ， 由 下 式 给 出 


BG [RH (14.7) 
F 


1 -B(w) 称 为 检验 的 功效 函数 (Power function), JF HLS-F 94 y 为 真实 均值 时 假设 被 拒绝 
的 概率 。 


表 14-2 第 一 类 错误 、 第 二 类 错误 和 检验 功效 














决策 
事 实 接 受 拒 绝 
x 正确 第 一 类 错误 
假 第 二 类 错误 正确 (功效 ) 





与 备 择 假设 为 x pe 时 的 双 侧 检 验 相反 ， 也 可 以 进行 如 下 形式 的 单 侧 检验 (one- sided 
test) : 
H, : p S po 
Hy? p>po 
显著 性 水 平 为 a 的 单 侧 检验 定义 了 界定 于 单 侧 的 100(1 - a)% 置 信 区 间 , H TRR, m 
的 值 必须 位 于 该 区 间 内 。 我 们 接受 该 假设 ， 如 果 
(mp) e (rmn) (14.8) 


如 果 方 差 未 知 ， 我 们 可 以 像 在 区 间 估计 中 所 做 的 那样 ， 以 样本 方差 来 蔡 代 总 体 方差 并 利 
用 下 述 事实 


ee ~ tes (14.9) 

例如 ， 对 于 Hin = 和 本 :pz ps， 我 们 以 显著 性 水 平 a 接受 假设 ， 如 果 
A i x Gaping (14.10) 

这 就 是 双 侧 :检验 (two-sided £ test) 。 相 似 的 可 以 定义 单 侧 :检验 。 

14.6 评估 分 类 算法 的 性 能 


现在 ,我们 已 经 回顾 了 假设 检验 ， 为 理解 如 何 将 其 应 用 于 误差 率 检验 做 好 了 准备 。 我 们 
从 误差 率 评估 人手， 在 下 一 节 讨论 误差 率 比较 。 


14. 6.1 二 项 检验 


我 们 从 只 有 一 个 训练 集 T 和 一 个 确认 集 y 的 情形 入 手 。 我 们 在 了 上 训练 分 类 器 并 在 V 上 
检验 。 我 们 以 p 表示 分 类 器 误 分 类 的 概率 。p 是 未 知 的 ; 因而 我 们 要 对 它 进行 估计 或 对 关于 

















339) 
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它 的 假设 进行 检验 。 对 于 来 自 确认 集 V 的 索引 号 为 :的 实例 ， 我 们 以 x 表示 分 类 决策 的 正确 
性 。 这 样 的 话 ，x" 取 值 为 0/1; x 是 伯 努 利 分 布 ， 分 类 器 以 概率 p 产生 一 次 误 分 类 并 且 x' 取 
1 值 ， 以 概率 1 -p 正确 分 类 并 且 x' 取 0 值 。 对 p 值 的 点 估计 为 (4.2.1 35) 
Pu 
N 

其 中 N= |Y | 。 现 在 我 们 想 要 检验 错误 概率 p 是 否 小 于 或 等 于 我 们 设 定 的 某 个 值 pn。 问 题 
可 以 表述 为 :假定 一 个 分 类 器 在 一 个 大 小 为 N 的 确认 集 上 有 e 次 误 分 类 ， 是 否 可 以 说 分 类 器 
的 误差 概率 为 Ps 或 更 小 ? 

我 们 有 如 下 假设 检验 


p= 





(14. 11) 


H, : p < po Xt H,: pp, 
E X ORSEKUINOS N 的 确认 集 上 的 误 分 类 次 数 : 


Ei 


X= x? 
因为 x" 是 独立 的 、 服 从 伯 努 利 分 布 的 随机 变量 ， 因 此 其 和 站 服 从 二 项 分 布 。 如 果 错 误 
概率 为 Pp， 则 分 类 器 在 N 次 分 类 中 有 7 次 误 分 的 概率 为 


P\X = j| = Cyp'(1 - p)? 
在 原 假设 下 ， 我 们 假定 P( 最 多 ) 为 p。， 而 最 多 有 。 次 误 分 类 的 概率 为 
PiX «e| = Bond =p)? (14.12) 





如 果 这 个 概率 小 于 所 允许 的 概率 1 - a， 
绝 它 。 


二 项 检验 (binomial test) 接受 该 假设 ; 否则 ， 拒 


14.6.2 近似 正 态 检验 


二 项 检验 计算 代价 较 高 。 因 为 X 是 服从 相同 分 布 的 独立 随机 变量 之 和 ， 依 据 中心 极 限 
定理 ， 对 于 大 的 N 值 和 小 的 po, X 近似 服从 均值 为 Np。、 方 差 为 Npo(1 -po) 的 正 态 分 布 。 于 
是 

X - Np, 
WNpo(l = Po) 
其 中 ~ 表示 “近似 服从 分 布 "。 于 是 ， 当 于 =e 时 ， 如 果 上 式 的 值 小 于 或 等 于 z,.。， 则 近似 正 
态 检 验 (approximate normal test) 接受 原 假设 。 其 中 zw 的 值 是 1. 64。 当 Np, > 20 时 ， 该 检验 
可 能 给 出 错误 的 结果 。 


E (14.13) 


14.6.3 配对 上 检验 


前 述 两 种 检验 方法 都 使 用 一 个 确认 集 。 如 果 在 K 对 训练 /确认 集 上 运行 算法 天 次 ， 则 我 
MIE K AWAR EER KARAD E p isl, o, Ko 设 x* 为 1 如果 在 T, 上 训练 的 分 类 
器 对 Yi 中 的 实例 + 产生 了 一 次 误 分 ; 否则 江 为 0。 于 是 


分 类 算法 评 信 和 上 比较 223 








由 于 有 


根据 (14.9) 式 ， 我 们 有 

Vm M. one (14.14) 
如 果 上 式 的 值 小 于 或 等 于 tuu, WEN 上 检验 接受 原 假设 : 分 类 算法 以 显著 性 水 平 a 具有 
Po 或 更 低 的 错误 率 。 通 常 ，K 取 值 为 10 或 30。 toos =1. 83 T to os =1.70。 
14.7 比较 两 个 分 类 算法 


给 定 两 个 学 习 算法 和 一 个 训练 集 ， 我 们 想 要 比较 和 检验 这 两 个 算法 所 构建 的 分 类 器 在 新 
的 实例 上 是 否 具 有 相同 的 期 望 误差 率 。 


14.7.1 McNemar 检验 


给 定 一 个 训练 集 和 一 个 确认 集 ， 我 们 使 用 两 个 算法 在 训练 集 上 训练 两 个 分 类 器 并 在 确认 
集 上 对 它们 进行 检验 并 计算 它们 的 误差 。 如 下 所 示 的 列 联 表 ( contingency table) 是 一 个 矩阵 
形式 的 自然 数 数组 ， 表 示 各 种 情况 的 计数 或 频率 : 











te: 两 个 分 类 器 均 误 分 的 实例 or: 分 类 器 1 误 分 而 分 类 器 0 
T E 没有 误 分 的 实例 个 数 
t: 分 类 器 2 误 分 而 分 类 器 1 eu: 两 个 分 类 器 均 正确 分 类 的 
没有 误 分 的 实例 个 数 实例 个 数 


在 两 个 分 类 算法 有 相同 的 错误 率 的 原 假设 下 ， 我 们 期 望 en = ei。， 二 者 的 值 均 为 (eo, + 
eo)/2。 我 们 有 自由 度 为 1 的 卡 方 统计 量 
Clen - ew |= 1)? 
eol + el0 
并 且 如 果 上 述 统计 量 小 于 或 等 于 X.,， 则 MeNemar 检验 接受 假设 : 两 个 分 类 算法 以 显著 水 平 
o 具有 相同 的 误差 率 。Xa us =3. 84。 


-X (14.15) 


14.7.2 K- 折 交叉 确认 配对 t 检 验 


使 用 K- 折 交叉 确认 在 数据 集 上 产生 K 对 训练 /确认 集 。 我 们 使 用 两 个 分 类 算法 在 训练 集 
TiGi=1，…， 有 K) 上 训练 并 在 各 确认 集 Y 上 检验 。 两 个 分 类 器 在 确认 集 上 的 误差 率 分 别 记 作 
Pi ”和 p:”。 如 果 两 个 分 类 算法 具有 相同 的 误差 率 ， 则 我 们 期 望 它们 具有 相同 的 均值 ， 或 等 
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价 地 说 ， 它 们 的 均值 之 差 为 0。 
在 第 i 折 ， 两 个 分 类 器 的 误差 率 之 差 是 p; =p;”-p:”。KK 次 比较 之 后 ， 得 到 一 个 包含 


个 点 的 忆 的 分 布 。 由 于 ps” 和 pt” 二 者 是 (近似 ) 正 态 的 ， 其 差 p, 也 是 正 态 的 。 原 假设 为 该 
分 布 的 均值 为 0: 


SO 
Hip #0 
我 们 定义 
s 
X» X - m)? 
在 上 =0 的 原 假设 下 ,我 们 有 一 个 自由 度 为 -1 的 统计 量 : 
Elm ON XR, (14.16) 


因而 ， 如 果 该 值 落 在 区 间 ( ouis tanx), W K- 折 交叉 确认 配对 上 检验 (K-fold ev 
paired t test) 接受 假设 : 两 个 分 类 算法 以 显著 水 平 a 具有 相同 的 误差 率 。to 02s。 = 2.26, 


0,025,290 =2.05。 
14.7.8 5x2 交叉 确认 配对 上 检验 


在 Dietterich(1998) 提 出 的 5 x2 交叉 确认 + 检验 中 ， 我 们 进行 五 轮 对 折 交 叉 确认 。 在 每 
轮 中 ， 数 据 集 被 划分 为 等 大 小 的 集合 。p/? 表示 两 个 分 类 器 在 第 i 轮 中 第 j 折 数据 上 的 误差 
XO, 其 中 i=1，…，5, j=1，2。 在 第 i 轮 的 平均 值 为 ,= (P +p )/2， 估 计 方差 为 
si = (pi? -p)! +(P - p). 

在 两 个 分 类 算法 具有 相同 的 误差 率 的 原 假设 下 ，p!? 是 两 个 同 分 布 的 比例 值 之 差 ， 而 忽 
略 这 些 比例 值 不 是 相互 独立 的 事实 ，p9 可 近似 的 被 认为 服从 均值 为 0， 方 差 o? 未 知 的 正 态 
io FÆ, p/o 是 近似 单位 正 态 的 。 如 果 假定 pf? 和 pl” 是 独立 、 正 态 的 (严格 地 说 并 
非 如 此 ， 因 为 它们 的 训练 和 确认 集 并 非 相互 独立 抽取 的 )， 则 /o? 服从 自由 度 为 1 的 卡 方 
分 布 。 如 果 假 定 每 个 是 相互 独立 的 (事实 并 非 如 此 因为 它们 从 相同 的 数据 集 计算 得 到 ) ， 
则 它们 的 和 服从 自由 度 为 5 的 卡 方 分 布 : 





并 且 





Ee UE (14.17) 
YEG PL 
上 式 给 出 了 自由 度 为 5 的 + 统计 量 。 如 果 该 统计 量 的 值 落 在 区 间 ( -tss，Las)， 则 5x2 交 


又 确认 1 检验 (5 x2 cv paired t test) 接受 假设 : 两 个 分 类 算法 以 显著 性 水 平 a 具有 相同 的 误 
ARES tooss =2.57。 
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我 们 也 可 以 定义 一 个 单 侧 检 验 来 检查 第 一 个 分 类 算法 的 期 望 误 差 率 是 否 小 于 或 等 于 第 二 
个 算法 ， 即 : 
Hy: <0 
H,:p>0 
我 们 计算 和 (14. 17) 式 相同 的 统计 量 并 在 它 小 于 t, BERE BLL tooss = 2. 02。 


14.7.4 5x2 交叉 确认 配对 下 检验 


我 们 注意 到 (14. 17) 式 中 的 分 子 ps” 是 任意 的 ; 实际 上 ， 有 10 个 不 同 的 值 可 当 作 分 子 ， 
BD: p^, j=1, 2, i=1, =, 5, 产生 10 个 可 能 的 统计 量 : 


o 


(P. LP (14.18) 


P /5 


Alpaydin(1999) 提 出 了 5 x2 交叉 确认 :检验 的 扩展 ， 组 合 10 个 可 能 的 统计 量 的 结果 。 
WR pi? Jo -Z, Wi (p! 7o? ~ 加， 并 且 其 和 是 自由 度 为 10 的 卡 方 分 布 : 


oya 
3 EXC ) 
UN n 


将 上 式 作为 (14. 17) 式 的 分 子 ， 得 到 的 统计 量 为 两 个 卡 方 分 布 随机 变量 的 比值 。 两 个 变 
量 分 别 除 以 它们 的 自由 度 得 到 第 一 自由 度 为 10， 第 二 自由 度 为 5 的 亚 分 布 (A.3.8 节 ) ; 





N ~ Xo 


fei? = Sf _.-r,, (14. 19) 
2X3 

如 果 该 值 小 于 Fos, WIS x2 交叉 确认 配对 玉 检 验 (5 x 2cv paired F test) MAB: 两 个 分 

类 算法 以 显著 性 水 平 a 具有 相同 的 误差 率 。Fuuos 74.74. 


14.8 比较 多 个 分 类 算法 : 方差 分 析 


在 很 多 情况 下 ,我们 有 多 个 候选 分 类 算法 ,我 们 希望 找到 最 准确 的 一 个 。 给 定 L 个 候选 
分 类 算法 ,我 们 在 下 个 训练 集 上 对 其 进行 训练 ， 每 个 算法 产生 个 分 类 器 ， 而 后 在 下 个 确 
认 集 上 进行 检验 并 记录 相应 的 误差 率 。 这 样 产生 了 /组 ， 每 组 个 误差 值 。 于 是 ， 问 题 是 
比较 这 工 个 样本 的 差异 的 统计 显著 性 。 

在 方差 分 析 (analysis of variance) 中 ， 我 们 考虑 了 个 独立 的 样本 ， 每 个 大 小 为 K， 由 未 知 
均值 y 和 未 知 公共 方差 o^ 的 正 态 随机 变量 组 成 : 

X, ~ N(u, m) 2l, Lis 1,..,K, 
并 且 我 们 想 对 “所 有 均值 相等 ”的 假设 H, 进行 检验 : 
Hy? p, = ba = = 

对 多 个 分 类 算法 的 误差 率 进行 比较 就 属于 这 种 情况 。 对 工 个 分 类 算法 ,我们 有 其 在 天 

个 确认 折 上 的 误差 率 。X; 是 分 类 算法 j 在 第 i 折 数 据 所 训练 的 分 类 器 的 确认 错误 次 数 。 每 个 
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XX 是 二 项 式 的 并 近似 服从 正 态 分 布 。 如 果 接 受 矶 ， 则 我 们 可 以 断言 工 个 分 类 算法 之 间 的 误 
差 率 不 存在 显著 差异 。 因 而 ， 这 是 我 们 在 14.7 节 所 看 到 的 对 两 个 分 类 算法 进行 比较 的 检验 
方法 的 推广 。 这 工 个 分 类 算法 可 能 不 同 或 使 用 不 同 的 超 参数 ， 如 多 层 感 知 器 的 隐藏 单元 数 ， 
-nn 的 近邻 数 等 等 。 
方差 分 析 方 法 是 导出 两 个 关于 o? 的 估计 。 第 一 个 估计 只 有 在 ,为 真 的 时 候 才 为 真 ， 而 
第 二 个 估计 始终 是 一 个 有 效 估计 ， HICH 是 否 为 真 。 如 果 两 个 估计 显著 不 同 ， 则 方差 分 析 
拒绝 H。， 即 工 个 样本 取 自 相同 的 总 体 。 
第 一 个 关于 OF 的 估计 是 有 效 的 ， 仅 当 假设 为 真 ， 即 万 su, j=l, |, Lo MEX, ~ 
Nlp, °), WEAF 
DEA 
= >; T 
也 是 正 态 的 ， 均 值 为 kx、 方差 为 o*/K。 如 果 假 设 为 真 ， 则 mj(j =1，…, D RE LAB 
NW(p，g*/K) 的 实例 。 于 是 ， 它 们 的 均值 和 方差 分 别 为 


(14. 20) 


每 个 m 都 是 正 态 ， 并 且 (L -1)S°/(0°/K) EB BE CL -1) 的 卡 方 分 布 。 因 而 ， 我 
们 有 





了 ~ HA (14.21) 


我 们 定义 组 间 平 方 和 SS, 为 
SS, = KY, (m, - m)? 
Alli, 4H, 为 真 时 ， 我 们 有 
SS, 


=~ Mia (14.22) 
o 
第 二 个 关于 o^ 的 估计 是 组 方差 5 的 平均 值 。 组 方差 定义 为 
2a -m,)* 
ra mue 
而 它们 的 平均 值 为 
T Quom 
OX ix! WT (14.23) 
我 们 定义 组 内 平方 和 SS, 为 
SS, 2X X, =m)? 


回忆 一 下 ， 对 正 态 样本 ， 我 们 有 
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a 
(Re ern 
c 
并 且 卡 方 分 布 之 和 仍然 是 卡 方 分 布 ， 我 们 有 
£4 3884 TH 
(K- DE gcn 
因而 
SS, 
ACT Fite (14.24) 
L4 


如 果 两 个 估计 显著 不 同 ， 则 我 们 应 当 拒绝 #。。 而 如 果 H, 不 为 真 ， 则 第 一 个 估计 高 估 了 
0”。 两 个 独立 卡 方 变量 分 别 除 以 其 相应 的 自由 度 的 比值 是 一 个 服从 分布 的 随机 变量 ， 因 
而 当 H 为 真 时 ， 我 们 有 

S/o? SS,/o? SS,/(L - 1) 
( Er )/ (zx =1)) * SS.7(L(K=1y) ^ Peed a) 

对 于 任意 给 定 的 显著 性 水 平 值 ， 如 果 该 统计 量 小 于 Forun, WEE LNIANE 
具有 相同 的 期 望 误差 率 的 假设 。 这 就 是 基本 的 单 向 方差 分 析 ， 其 中 只 有 单个 因素 ， 例 如 ， 分 
类 算法 。 

如 果 假设 被 拒绝 ， 我 们 只 是 知道 L 个 分 组 之 间 存在 某 种 差异 ; 我 们 并 不 知道 分 类 算法 的 
误差 率 是 怎样 的 不 同 。 为 此 ， 我 们 可 以 在 分 类 算法 的 子 集 上 进行 方差 分 析 来 确定 误差 率 相当 
的 子 集 。 我 们 不 需要 考虑 所 有 可 能 的 子 集 ; 我 们 可 以 将 分 类 算法 按照 平均 误差 排序 ， 然 后 对 
相继 的 分 类 算法 进行 检验 。 为 了 找到 最 大 的 分 组 ， 我 们 从 大 子 集 向 小 子 集 进行 ; 首先 对 所 有 
了 上 个 分 组 进行 检验 ; 如 果 被 拒绝 ， 则 对 两 个 L-1 的 子 集 (去 掉 第 一 个 或 最 后 一 个 ) 进行 检验 ， 
等 等 。 最 后 ， 我 们 得 到 没有 显著 差异 的 分 组 。 例 如 ， 我 们 的 结果 可 以 是 145 23 ， 表 示 有 了 两 个 
分 组 ， 一 个 由 分 类 算法 1、4、5 组 成 ， 另 一 个 由 2 和 3 组 成 。 

也 存在 非 参 数 检验 来 进行 对 照 (contrast) 检查 ( Dean and Voss 1999) : 假设 算法 1 和 2 是 
参数 方法 ， 而 算法 3 和 4 是 非 参 数 方法 。 我 们 可 以 检验 算法 1 和 2 的 平均 是 否 不 同 于 3 和 4 
的 平均 。 

我 们 还 可 以 使 用 14.7 节 中 讨论 的 各 种 检验 方法 进行 一 系列 的 两 两 比较 来 检验 两 两 差异 。 
在 统计 学 中 ， 这 称 为 多 重 比较 (multiple comparison) 。 然 而 ， 如 果 我 们 在 使 用 一 组 检验 之 后 
做 出 决定 ， 有 一 点 需要 注意 : 如 果 要 以 显著 性 水 平 a 对 m 个 假设 进行 检验 ， 则 至 少 有 一 个 
假设 不 正确 地 被 拒绝 的 概率 至 多 为 ma。 例 如 ， 每 个 均 以 95% 的 单个 置信 区 间 进 行 计算 的 6 
个 置信 区 间 同 时 正确 的 概率 至 少 为 70% 。 因 而 ， 为 了 确保 整体 置信 区 间 至 少 为 100(1 - a), 
单个 置信 度 区 间 应 当 为 100(1 - a/m) 。 这 称 之 为 Bonferroni 校正 ( Bonferroni correction) o 

在 KK 个 训练 /确认 集 上 对 工 个 分 类 算法 进行 训练 和 检验 是 主要 的 代价 所 在 。 一 旦 训练 、 
检验 完成 并 且 结 果 存储 在 一 个 KxL 的 表 中 ， 从 中 进行 方差 分 析 或 计算 两 两 比较 检验 统计 量 
相对 而 言 就 廉价 许多 。 





14.9 注释 


关于 区 间 估 计 ， 假 设 检验 和 方差 分 析 的 更 为 详细 的 讨论 可 以 在 任何 统计 学 导论 书籍 中 找 
到 ， 如 Ross1987。Dietterich(1998 ) 讨 论 了 各 种 统计 检验 方法 ， 并 在 多 个 应 用 上 使 用 不 同 的 分 
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类 算法 对 其 进行 了 比较 。Jensen 和 Cohen(2000) 讨 论 了 如 何 优化 学 习 器 的 超 参数 。 

在 比较 两 个 分 类 算法 方面 ， 请 注意 我 们 只 是 对 它们 是 否 具有 相同 的 期 望 误差 率 进行 检 
验 。 如 果 是 ， 这 也 不 意味 它们 产生 相同 的 错误 。 这 是 我 们 在 第 15 章 将 要 讨论 的 想法 ; 如 果 
不 同 的 分 类 器 产生 不 同 的 错误 ， 则 我 们 可 以 通过 组 合 多 个 模型 来 提高 准确 率 。 

另 一 个 需要 注意 的 要 点 是 ， 我 们 只 对 误 分 类 率 进行 评估 或 比较 。 这 意味 着 从 我 们 的 观点 
出 发 ， 所 有 的 误 分 类 都 具有 相同 的 代价 。 如 果 事 实 并 非 如 此 ， 则 我 们 的 检验 应 当 基于 风险 ， 
将 一 个 合适 的 损失 函数 考虑 在 内 。 这 一 方面 的 工作 还 不 是 很 多 。 类 似 的 ， 这 些 检验 也 应 当 从 
分 类 推广 到 回归 ， 使 得 可 以 对 回归 算法 的 均 方 误差 进行 评估 (4. 6 节 ) ， 或 可 以 对 两 个 回归 算 
法 的 误差 进行 比较 。 

我 们 所 讨论 的 是 参数 检验 ， 因 为 我 们 假定 了 某 种 参数 模型 并 在 其 上 定义 了 假设 ， 例 如 
Hy: =0. WH 3E CHE He (nonparametric test) (Conovarl999) 。 例 如 ，Kruskal- Wallis 检验 即 
是 方差 分 析 的 非 参数 版 本 ， 其 中 给 定 了 一 定数 量 的 样本 ， 每 个 来 自 一 个 总 体 ， 而 我 们 要 对 所 
有 的 数据 源 是 相同 的 原 假设 进行 检验 。Newman- Keuls 检验 是 一 种 非 参数 范围 检验 ， 用 来 寻 
找 误 差 率 相当 的 子 集 并 对 其 排序 ; 比如， 用 它 可 以 发 现 诸如 145 23 这 样 的 排序 。 多 重 比较 的 
方法 在 Dean 和 Voss1999 中 讨论 。 

Statlog W F (Michie, Spiegelhalter 和 Taylor1994 ) 对 二 十 个 不 同 的 分 类 算法 在 大 数量 应 用 
上 进行 了 比较 。 另 一 个 是 Delve 项 目 ， 人 允许 研究 者 增加 新 的 数据 集 和 分 类 算法 来 和 其 他 的 算 
法 比较 ( Hinton 和 Delve 小 组 成 员 1995 ) 。 

当 我 们 比较 两 个 或 更 多 算法 的 时 候 ， 如 果 它 们 具有 相同 误差 率 的 原 假设 被 接受 ， 我 们 选 
用 最 简单 ， 即 空间 和 时 间 复 杂 度 最 小 的 算法 。 也 就 是 说 ， 如 果 数 据 在 误差 率 方面 并 不 偏好 任 
何 一 个 分 类 算法 的 时 候 ， 我 们 使 用 先 验 知识 的 偏好 。 例 如 ， 如 果 我 们 对 一 个 线性 模型 和 一 个 
非 线性 模型 进行 比较 ， 并 且 检验 接受 了 二 者 具有 相同 的 误差 率 ， 则 我 们 将 选择 更 为 简单 的 线 
性 模型 。 即 使 检验 拒绝 了 这 样 的 假设 ， 在 选择 算法 的 时 候 ， 错 误 率 也 仅仅 是 一 个 标准 。 其 他 
如 训练 (空间 /时 间 ) 复 杂 度 、 检 验 复杂 度 和 可 解释 性 在 实际 应 用 中 都 可 能 是 更 重要 的 标准 。 


14.10 习题 


1. 我 们 可 以 通过 从 一 个 伯 努 利 分 布 抽 取样 本 来 模拟 一 个 误差 概率 为 p 的 分 类 器 。 进 行 此 模 
拟 ， 并 对 p, e (0，1) 进 行 二 项 检验 ， 近 似 正 态 检验 和 + 检验。 对 不 同 的 p 值 ， 将 这 些 检 
验 进行 至 少 1000 次 并 计算 拒绝 原 假设 的 概率 。 当 Ps = 时 ， 你 认为 拒绝 的 期 望 概率 如 何 ? 

2. 假设 x* ~N (u, °), 其 中 0? 已 知 。 对 假设 H pops IH <p 如 何 进行 检验 ? 

3. K- 折 交叉 确认 + 检验 只 对 误差 率 相等 的 假设 进行 检验 。 如 果 假 设 被 拒绝 ， 我 们 并 不 知道 哪 
个 分 类 算法 具有 更 低 的 误差 率 。 我 们 如 何 对 第 一 个 分 类 算法 不 比 第 二 个 分 类 算法 的 误差 
率 更 高 的 假设 进行 检验 ? 提示 : 需要 对 Hu <0 HH: u> 进行 检验 。 

4. 假设 有 三 个 分 类 算法 。 如 何 将 其 从 最 好 到 最 差 进行 排序 ? 
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第 15 章 组 合 多 学 习 器 


我 们 在 前 面 的 章节 中 讨论 了 许多 不 同 的 学 习 算法 。 尽 管 一 般 而 言 它们 是 成 功 的 ， 但 没有 
哪 一 个 算法 总 是 最 准确 的 。 现 在 ， 我 们 将 讨论 由 多 个 学 习 器 组 成 的 模型 。 这 些 学 习 器 互补 
因此 通过 组 合 它们 ， 我 们 可 以 获得 更 高 的 准确 率 。 


15.1 基本 原理 


在 任何 应 用 中 ， 我 们 可 以 使 用 多 个 学 习 算法 中 的 一 个 ， 而 使 用 某 算法 ， 存 在 对 最 终 学 习 
器 产生 影响 的 超 参数 。 例 如 ， 在 分 类 情况 下 ， 我 们 可 以 使 用 参数 分 类 器 或 多 层 感知 器 ， 而 比 
如 对 一 个 多 层 感 知 器 ， 我 们 还 要 确定 隐藏 单元 的 数目 “没有 免费 的 午餐 ”法 则 表明 没有 一 
个 学 习 算法 可 以 在 任何 领域 总 是 产生 最 准确 的 学 习 器 。 通 常 的 方法 是 试验 很 多 种 算法 ， 然 后 
选择 在 一 个 在 单独 的 确认 集 上 性 能 最 佳 的 算法 ， 正 如 在 第 14 章 所 讨论 的 那样 。 

每 一 个 学 习 算法 都 构建 了 一 个 基于 一 组 假设 的 某 种 模型 。 当 假设 在 数据 上 不 成 立时 ， 这 
种 归纳 偏 倚 将 导致 误差 。 学 习 是 一 个 不 适 定 问题 ， 并 且 在 有 限 的 数据 上 ， 每 个 学 习 算法 都 收 
剑 到 不 同 的 解 ， 并 在 不 同 的 情况 下 失效 。 可 以 通过 性 能 调节 使 一 个 学 习 算法 在 确认 集 上 达到 
尽 可 能 最 高 的 准确 率 ， 但 是 调节 本 身 就 是 一 个 复杂 的 任务 ， 并 且 即 使 对 最 好 的 学 习 器 而 言 也 
存在 实例 使 其 不 能 足够 准确 。 解 决 之 道 在 于 也 许 存在 另 一 种 学 习 方法 ， 在 这 些 实例 上 是 准确 
的 。 通 过 合适 方式 将 多 个 学 习 器 组 合 可 以 提高 准确 率 。 近 来 ， 随 着 计算 和 存储 变 得 更 为 廉 
价 ， 组 合 多 个 学 习 器 的 系统 也 随 之 流行 。 

组 合 总 是 采取 类 似 决策 的 学 习 器 是 没有 意义 的 ， 因 此 我 们 的 目标 是 可 以 寻找 一 组 基 学 习 
3$ (base-learner) ， 它 们 采取 不 同 的 决策 以 至 可 以 相互 补充 。 为 了 达到 这 一 目标 ,我 们 可 在 
不 同 的 “环节 ”操作 : 

1. 最 简单 的 方法 是 使 用 不 同 的 学 习 算法 (different learning algorithm ) 来 训练 ， 得 到 不 同 
的 基 学 习 器 。 不 同 的 算法 对 数据 做 不 同 的 假设 并 产生 不 同 的 分 类 器 。 比 如 ， 一 个 基 学 习 器 可 
能 是 参数 化 的 而 另 一 个 是 非 参 数 的 。 当 我 们 决定 使 用 一 个 算法 的 时 候 ， 我 们 是 将 重点 放 在 单 
一 方法 上 并 忽略 所 有 其 他 方法 。 通 过 基于 多 个 算法 来 组 合 多 个 学 习 器 ， 我 们 将 自己 从 只 能 接 
受 一 个 单一 决策 的 境况 中 摆脱 出 来 ， 并 再 也 不 将 所 有 鸡蛋 放 在 同一 个 篮子 中 。 

2. 我 们 可 以 使 用 相同 的 学 习 算法 ,但 使 用 不 同 的 超 参 数 ( different hyperparameter) 。 这 样 
的 例子 包括 : 多 层 感知 器 中 的 隐藏 单元 数目 ， 纪 最 近邻 中 的 上 值 ， 决 策 树 中 的 误差 阔 值 等 
等 。 对 高 斯 参数 分 类 器 而 言 ， 协 方差 矩阵 是 否 共享 是 一 个 超 参数 。 如 果 在 优化 算法 中 使 用 诸 
如 梯度 下 降 这 样 的 最 终 状 态 依赖 于 初始 状态 的 迭代 过 程 ， 如 使 用 向 后 传播 的 多 层 感知 器 ， 初 
始 状态 (如 初始 权重 ) 是 另 一 种 超 参数 。 当 我 们 用 不 同 的 超 参数 值 训练 多 个 基 学 习 器 时 ， 我 
们 对 其 取 平 均值 来 降低 方差 ， 从 而 减 小 误差 。 

3. 不 同 的 基 学 习 器 也 可 以 使 用 相同 输入 对 象 或 事件 的 不 同 表示 (different representation) , 
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从 而 使 得 集成 不 同类 型 的 感知 器 /测量 或 特征 成 为 可 能 。 不 同 的 表示 凸显 了 对 象 的 不 同 特征 ， 
从 而 产生 更 好 的 识别 。 在 许多 应 用 中 ,存在 多 个 信息 源 ， 如 能 使 用 所 有 这 些 数据 来 提取 更 多 
的 信息 、 并 在 预测 中 到 达 更 高 的 准确 率 是 令 人 期 望 的 。 例 如 ， 在 语音 识别 中 ， 为 了 识别 语音 
单词 ， 除 了 声学 输入 之 外 ,我们 还 可 以 使 用 讲话 者 在 说 这 个 单词 时 嘴唇 的 视频 图 像 。 这 类 似 
于 传感器 融合 (sensor fusion) ， 其 中 来 自 不 同 传感器 的 数据 集成 在 一 起 ， 为 特定 应 用 提取 更 
多 的 信息 。 最 简单 的 方法 就 是 连接 所 有 数据 向 量 并 将 其 当 作 是 来 自 同 一 数据 源 的 一 个 大 向 
d, 但 是 这 种 方法 在 理论 上 似乎 不 太 合适 ， 因 为 这 样 相当 于 对 取 自 多 元 统计 分 布 的 数据 进行 
建 模 。 此 外 ， 更 高 的 输入 维度 使 得 系统 更 为 复杂 ， 并 且 需 要 更 大 的 样本 以 使 估计 更 准确 。 我 
们 采用 的 方法 是 使 用 不 同 的 基 学 习 器 在 不 同 的 数据 源 上 分 别 进行 预测 ， 然 后 维 合 这 些 预 测 
结果 。 
4. 另 一 可 能 的 方法 是 使 用 不 同 的 训练 集 ( different training set) 训练 不 同 的 基 学 习 器 。 这 
可 以 通过 在 给 定 的 样本 上 随机 地 抽取 训练 集 来 实现 ; 这 称 之 为 “ 装 和 袋 "8。 抑 或 ， 可 以 串 行 
地 训练 学 习 器 ， 使 得 前 一 个 基 学 习 器 上 预测 不 准 的 实例 在 之 后 的 基 学 习 器 的 训练 中 获得 更 多 
的 重视 ; 这 种 例子 有 提升 (boosting) 和 级 联 (cascading) ， 这 些 方法 积极 地 尝试 生成 互补 的 学 
习 器 ， 而 不 是 靠 碰 运气 。 训 练 样本 的 划分 也 可 以 基于 数据 空间 的 局 部 性 来 完成 ， 以 使 每 
个 基 学 习 器 在 属于 输入 空间 中 某 一 局 部 的 实例 上 训练 ; 这 即 是 由 我 们 在 第 12 章 讨论 的 
“混合 专家 模型 ”所 做 的 ， 不 过 我 们 从 多 学 习 器 组 合 的 角度 来 讨论 。 类 似 的 ， 可 以 将 主任 
务 定义 为 由 基 学 习 器 实现 的 若干 子 任务 ， 如 纠 错 输 出 码 (error- correcting output code) 所 做 
的 那样 。 
非常 重要 的 一 点 是 当 生成 多 个 基 学 习 器 时 ， 只 要 它们 有 合理 的 准确 率 即 可 ， 而 不 要 求 它们 每 
个 都 非常 的 准确 ， 因 此 不 要 ， 也 不 需要 对 这 些 基 学 习 器 进行 单独 优化 以 获取 最 佳 准确 率 。 基 
学 习 器 的 选择 并 不 是 由 于 其 准确 性 ， 而 是 由 于 其 简单 性 。 然 而 ， 我 们 的 确 要 求 基 学 习 器 在 不 
同 实例 上 是 准确 的 ， 专 注 于 问题 的 子 领 域 。 我 们 所 关心 的 是 基 学 习 器 在 组 合 后 的 准确 性 ， 而 
非 开始 时 各 基 学 习 器 的 准确 性 。 例 如 ， 我 们 有 一 个 准确 率 为 80% 的 分 类 器 。 当 我 确定 第 二 
个 分 类 器 的 时 候 ， 我 们 不 关心 其 总 体 准 确 率 ; 只 要 我 们 知道 何 时 使 用 哪个 分 类 器 ， 我 们 只 关 
心 其 在 第 一 个 分 类 器 误 分 的 20% 实例 上 的 准确 性 如 何 。 
除了 如 何 训练 学 习 器 之 外 ， 还 存在 不 同 的 多 个 基 学 习 器 组 合 方法 来 产生 最 终 的 输出 : 
m 多 专家 组 合 (multiexpert combination) 方 法 让 基 学 习 器 并 行 (parallel) 工作 。 所 有 基 学 
习 器 都 被 训练 ， 然 后 给 定 一 个 实例 ， 所 有 的 基 学 习 器 都 给 出 它们 的 决策 ， 而 一 个 另 
外 的 组 合 器 使 用 它们 的 预测 计算 最 终 的 决策 。 这 种 方法 的 例子 包括 投票 (voting) 及 其 
变种 ， 混 合 专家 模型 ( mixture of expert) HI Æ Æ 32 4 ( stacked generalization) 。 
m 多 级 组 合 (multistage combination) 方 法 使 用 一 种 顺序 (serial) 方 法 ， 其 中 下 一 个 基 学 习 
器 只 在 前 一 个 基 学 习 器 预测 不 够 准确 的 实例 上 进行 训练 或 检验 。 其 基本 思想 是 基 学 
习 器 (或 其 所 使 用 的 不 同 表示 ) 按 复杂 度 递增 排序 ， 使 得 除非 前 一 个 更 简单 的 基 学 习 
器 (的 结果 ) 不 足够 可 信 ， 否 则 就 不 使 用 复杂 的 基 学 习 器 (或 不 提取 其 复杂 表示 )。 一 
个 这 样 的 例子 是 级 联 ( cascading) 。 


© bagging 是 bootstrap aggregation( H MRM) 的 意思 。 许 多 文献 直译 为 “ 装 袋 " 。 我 们 沿用 这 种 译 法 。 一 一 译 者 注 
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假设 有 工 个 基 学 习 器 。 我 们 用 dj (x) RABE EM 在 给 定 的 任意 维 输入 * 上 的 预测 结 
果 。 在 存在 多 种 输入 数据 表示 的 情况 下 ， 每 个 3 使 用 一 个 不 同 的 输入 表示 x,。 最 后 的 预测 
从 各 个 基 学 习 器 的 预测 计算 : 


y =f(di,d,,…,d, |) (15.1) 
其 中 成 ') 是 一 个 组 合 函 教 ， 下 表示 其 参数 。 当 有 天 个 输出 的 时 候 ， 每 个 学 习 器 有 天 个 输出 
d,(x), i=1, =, K, j=l, =, L， 而 组 合 它们 ， 我 们 仍然 产生 KK 个 值 y,, i=1, =, Ko 
进而 ， 比 方 说 在 分 类 中 ， 我 们 选择 具有 最 大 y, 值 的 类 (作为 分 类 结果 ) 。 


15.2 投票 法 


组 合 多 个 学 习 器 的 最 简单 方法 是 通过 投票 ( voting) ， 这 相当 取 学 习 器 的 线性 组 合 。 这 种 
方法 也 称 集 成 (ensemble ) 或 线性 判断 组 合 (linear opinion pool) 。 我 们 以 w, 表示 学 习 器 /的 权 
重 。 那 么 最 终 的 输出 可 用 下 式 计算 ( 见 图 15-1) 





图 15-1 在 投票 法 中 ,组 合 函 数 儿 *) 是 一 个 加 权 和 。d 是 各 个 学 习 器 ， 而 w 是 它们 投票 的 权重 。 
7 是 总 体 输出 。 在 有 多 个 输出 的 情况 下 ， 比 如 分 类 ， 学 习 器 具有 多 个 输出 d;， 其 加 权 和 
为 yi。 还 要 注意 ， 图 中 所 有 学 习 器 观测 相同 的 输入 ; 可 能 不 同 的 学 习 器 观测 相同 输入 对 
象 或 事件 的 不 同 表示 


n 
y= Y ud, (15.2) 
满足 


i 
AES jw; 20JER Y v, =1 
f 


这 里 ，(15.1) 式 中 的 所") 相当 于 一 个 加 权 求 和 函数 ， 其 中 D ERER w, =, wo 
在 回归 中 ， 我 们 取 所 有 预测 的 加 权 平均 。 投 票 一 词 源 于 加 权 平均 在 分 类 中 的 使 用 。 


上 


» = X wd, (15.3) 


fa 


其 中 di 是 学 习 器 j 对 C, 类 的 投票 ，wi 是 其 投票 的 权重 。 在 最 简单 的 情形 下 ， 我 们 有 简单 投 
3k (simple voting) ， 其 中 所 有 投票 者 具有 相同 的 权重 ， 即 wj = 1/L。 在 分 类 中 ， 这 称 为 简单 多 


组 合 多 学 习 器 233 





MAK (plurality voting) ， 其 中 得 票 最 多 的 类 胜出 。 当 只 有 两 个 类 时 ， 这 就 是 (过 半 ) 多 数 表 
决 (majority voting) ， 其 中 胜出 类 获取 一 半 以 上 投票 (习题 1) 。 如 果 投 票 者 还 能 提供 它们 为 每 
个 分 类 投票 多 少 的 额外 信息 (例如 ， 通 过 后 验 概率 ) ， 则 规范 化 后 ， 这 些 信息 即 可 用 作 加 权 
投票 方案 的 权重 。 同 样 ， 如 果 d; 是 类 别 后 验 概率 PCC, | x*，M) ， 则 我 们 可 以 简单 将 其 相 加 
(wj =1/L) 并 选取 具有 最 大 y; 的 类 。 

另外 一 种 可 能 性 是 在 另外 的 确认 集 上 评估 学 习 器 (回归 或 分 类 器 ) 的 准确 率 并 使 用 这 些 
信息 来 计算 权重 ， 使 得 可 以 对 更 准确 的 学 习 器 赋予 更 高 的 权重 。 

投票 方案 可 以 看 作 贝 叶 斯 框架 下 的 近似 ， 以 权重 近似 先 验 模型 概率 ， 并 以 模型 决策 近似 
模型 条 件 似 然 。 这 就 是 贝 叶 斯 模型 组 合 (Bayesian model combination) 。 例 如 ， 在 分 类 中 我 们 
有 w= PCM), d, 2 PCC,| x, M), T (15.3) SC 

PCC, |2) =F PC, #404) PCM) (15.4) 
MATEM; 


简单 投票 相当 于 假定 一 致 先 验 概率 。 如 果 一 个 先 验 分 布 更 倾向 于 较 简单 的 模型 ， 则 简单 
投票 将 赋予 简单 的 模型 更 大 的 权重 。 我 们 可 以 不 在 所 有 模型 上 集成 ; 我 们 只 选取 一 个 我 们 认 
为 P(24 ) 值 高 的 子 集 ， 或 者 可 以 执行 另 一 个 贝 叶 斯 步骤 来 计算 给 定 样本 上 的 模型 的 条 件 概 
PCM; |X) ， 并 从 该 密度 选取 一 些 高 概率 的 模型 。 

Hansen 和 Salamon( 1990) EB] ; 给 定 (预测 ) 成 功 概率 高 于 1/2( 即 比 随机 猜测 的 预测 好 ) 
的 一 组 独立 的 两 类 分 类 器 ， 使 用 多 数 表决 ， 预 测 准确 率 随 着 投票 分 类 器 个 数 的 增加 而 提高 。 
假设 d, 服从 独立 同 分 布 ， 其 期 望 为 E [d,]、 方 差 为 Yar(d,) ， 那 么 当 使 用 w =1/L 取 简单 平 
均 时 ,输出 的 期 望 和 方差 分 别 为 





1 
+4] = TIELA] = Eld] 


1 





Var(y) = Var( X, t4) = Ev (Eo) = ELVar(d) = TVar(d) (15.5) 


可 以 看 到 期 望 没有 改变 ， 因 而 偏 倚 也 不 改变 。 但 是 方差 ， 进 而 均 方 误差 随 着 独立 投票 者 
数量 了 的 增加 而 降低 。 在 一 般 情况 下 ， 


Var(y) = Evar( X4) =p Tverd) 2X Ec.) ] ose 


由 此 ， 我 们 看 到 ， 如 果 投票 者 并 非 独立 而 是 负 相关 的 话 ， 进 一 步 降低 方差 是 可 能 的 。 如 果 随 
此 增加 的 偏 倚 不 是 更 高 的 话 ， 则 误差 也 会 降低 。 

如 果 将 每 个 基 学 习 器 看 作 是 附加 在 真实 判别 式 /回归 函数 上 的 随机 噪声 函数 ， 而 且 这 些 
噪声 函数 是 不 相关 的 并 且 均 值 为 0， 那么 在 每 个 估计 上 平均 就 相当 于 在 噪声 上 平均 。 从 这 种 
意义 上 讲 ， 投 票 具有 光滑 函数 空间 的 效果 并 可 以 看 作 是 一 个 在 真实 函数 上 具有 光滑 假设 的 正 
则 化 子 (Perrone1993 ) 。 我 们 在 图 4-5(d) 看 到 一 个 例子 ， 其 中 通过 在 具有 大 方差 的 模型 上 取 
平均 ， 我 们 得 到 了 比 单独 模型 更 好 的 拟 合 。 这 就 是 投票 的 思想 : 我 们 对 具有 高 方差 低 偏 倚 的 
模型 投票 ， 使 得 在 组 合 后 ， 偏 倚 依 然 保 持 很 小 而 通过 取 平 均 降 低 了 方差 。 即 使 单个 模型 是 有 
偏 的 ,方差 的 降低 也 可 能 抵消 偏 倚 并 仍然 可 能 降低 误差 。 
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15.3 纠 错 输 出 码 


在 纠 错 输出 码 (error- correcting output codes，ECOC) 中 (Dietterich 和 Bakiri 1995) ， 主 要 
的 分 类 任务 通过 由 基 学 习 器 实现 的 一 组 子 任务 来 定义 。 其 思想 是 : 将 一 个 类 从 其 他 类 区 分 开 
来 的 原始 任务 可 能 是 一 个 困难 的 问题 。 作 为 替代 ， 我 们 可 以 定义 一 组 简单 的 分 类 问题 ， 每 个 
专注 于 原始 任务 的 一 个 方面 ， 并 通过 组 合 这 些 简 单 分 类 器 来 得 到 最 终 的 分 类 器 。 

这 时 ， 基 学 习 器 是 输出 为 -1/ +1 的 二 元 分 类 器 ， 并 且 有 一 个 KxL 的 编码 矩阵 W， 其 
开行 是 关于 了 上 个 基 学 习 器 d, 的 类 的 二 元 编码 。 例 如 ， 如 果 W 的 第 二 行 是 [-1, +1, +1, 
-1] ， 则 这 意味 如 果 一 个 实例 属于 C, 类 ， 则 该 实例 应 在 d, Md, 上 取 负 值 ， 在 d, Ad, 上 取 
正 值 。 类 似 地 ， 编 码 和 矩阵 的 列 定义 了 基 学 习 器 的 任务 。 例 如 ， 如 果 第 三 列 是 [ -1，+1， 
+1]7， 可 理解 为 第 三 个 基 学 习 器 d, 的 任务 是 将 属于 C, 类 的 实例 与 属于 C, 和 C, 类 的 实例 
区 分 开 。 这 就 是 我 们 如 何 构成 基 学 习 器 的 训练 集 的 方式 。 例 如 ， 在 这 个 例子 中 ， 所 有 标记 为 
C, BRC, 类 的 实例 形成 X; ， 而 标记 为 C, 类 的 实例 构成 X，， 而 对 d, 的 训练 应 使 得 当 x' e 
X; 时 输出 +1， 当 x'eX， 时 输出 -1。 

这 样 ， 编 码 和 矩阵 使 得 我 们 可 以 用 二 分 问题 (K =2 的 分 类 问题 ) 定 义 多 分 问题 (K> 2 的 分 
类 问题 ) ， 并 且 这 是 一 种 适用 于 任意 可 以 实现 二 分 基 学 习 器 的 学 习 算 法 的 方法 ， 例 如 ， 线 性 
或 多 层 感知 器 ( 单 输出 ) 、 决 策 树 或 初始 定义 用 于 两 类 问题 的 SVM。 

典型 的 每 类 一 个 判别 式 的 情况 对 应 于 对 角 编 码 和 矩阵， 其 中 工 =K。 例 如 ， 对 于 到 =4， 我 
们 有 

Sale eI eam rol 
Bae bend Wes ah 
-1 -1 41 -i 
-1^-1 -1 +1 

这 里 的 问题 是 : 如 果 某 一 个 基 学 习 器 存在 错误 ， 就 会 有 误 分 类 ， 因 为 类 的 码 字 之 间 非 常 
相似 。 因 而 纠 错 码 采用 的 方法 是 使 了 >K 来 增加 码 字 之 间 的 汉 明 距离 。 一 种 可 能 的 方法 是 类 
逐 对 分 开 (pairwise separation), HEP Xt i<j 有 一 个 不 同 的 基 学 习 器 将 C, 与 C, 分 开 (10.4 
节 )。 在 这 种 情况 下 ， 当 开 =4 时 上 =K(K-1I)/2， 编 码 矩阵 为 

TUTT L VA EE 1g 
=1 0 PRAE 
LAS akado MRE 本 
0 0 -1, 0 -1 -i 
其 中 的 0 表示 “无 关 " AREH, VA d 来 将 C, 与 C, 分 开 并 且 在 训练 中 不 使 用 属于 其 他 
类 的 实例 。 类 似 地 ， 一 个 实例 属于 C, MRA d = -1 并 且 d =d = +1， 并 且 我 们 不 考虑 
d,, d, 和 ds 的 值 。 这 种 方法 的 问题 是 二 是 O(K ) 。 因 而 ， 对 于 比较 大 的 大， 逐 对 分 开 可 能 是 
不 可 行 的 。 


W= 
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方法 是 预先 设置 L 值 ， 然 后 寻找 W 使 得 以 汉 明 距离 衡量 的 行 间距 离 以 及 列 间 距离 都 尽 
可 能 的 大 。 对 下 个 类 而 言 ， 存 在 2””-1 种 可 能 的 列 ， 即 两 类 问题 。 这 是 因为 位 可 写 为 
2* 种 不 同 的 形式 和 补 (比如 ，“0101” 和 “1010” ， 从 我 们 的 角度 来 看 ， 二 者 定义 相同 的 判 
别 式 ) ， 将 所 有 可 能 组 合 除 以 2 然后 减 1， 因 为 全 为 0( 或 1) 的 列 是 无 用 的 。 例 如 ， 当 K=4 
时 ， 我 们 有 
-1 -1 -1 -1 -1 -1 -1 
Es Wong es ees RE o ed 
We 
ltl ey ees mE loal 


EMSA HL eed lisque 

当天 很 大 时 ， 对 于 一 个 给 定 的 工 值 ， 我 们 从 2“-” -1 列 选 取 工 列 。 我 们 希望 W 的 这 些 
列 尽 可 能 的 不 相同 ， 以 便 每 个 基 学 习 器 所 学 习 的 子 任务 尽 可 能 互 不 相同 。 同 时 ， 我 们 希望 
W 的 行 也 尽 可 能 不 相同 ， 使 得 在 一 个 或 多 个 基 学 习 器 失效 时 可 以 获得 最 大 的 纠 错 。 

ECOC 可 以 投票 方式 来 表述 ， 其 中 W 的 元 素 ws 被 看 作 是 投票 权重 : 


Br (15.7) 
然后 我 们 选取 具有 最 高 y, 的 类 。 通 过 求 加 权 和 并 选择 最 大 值 (判断 类 别 ) 取 代 寻 求 一 个 精确 
的 匹配 使 得 d, 也 不 必 是 二 元 的 ， 而 是 可 取 -1 到 +1 之 间 的 任意 值 ， 以 软 确定 性 取代 硬 判 
Ue. HORE, FOMI ZEH p 值 (例如 后 验 概率 ) 可 以 很 简单 地 被 转换 为 -1 到 +1 间 的 
4, fit: 





d,=2p,-1 

(15.7) 式 与 (15.3) 式 的 一 般 投票 模型 的 不 同 在 于 投票 的 权重 对 不 同 的 类 可 以 不 同 ， 即 
VA w UT w, FFA w, 20 iij wH -1, OR +1. 

ECOC 的 一 个 问题 是 : 由 于 编码 矩阵 W 被 设置 为 先 验 ， 因 此 不 能 保证 由 W 的 列 所 定义 
的 子 任务 一 定 是 简单 的 。Dietterich 和 Bakiri (1995) 的 研究 表明 二 分 树 可 能 要 比 多 分 树 大 ， 而 
且 当 使 用 多 层 感知 器 时 ， 后 向 传播 可 能 收敛 较 慢 。 


15.4 X& 


装 袋 (bagging) 是 一 种 投票 方法 ， 其 中 基 学 习 器 通过 在 稍 有 差异 的 训练 集 上 训练 而 有 所 
不 同 。 从 给 定 的 样本 数据 上 产生 个 稍稍 不 同 的 样本 集 通过 自助 法 来 完成 ， 其 中 给 定 一 个 大 
小 为 N 的 数据 集 X*， 随 机 从 X 中 有 放 回 地 ( with replacement) 抽取 N 个 实例 (14. 2.3 小 节 ) H 
于 抽样 是 通过 有 放 回 方式 完成 的 ， 可 能 某 些 实例 被 多 次 抽取 而 某 些 实例 根本 没有 被 抽 到 。 当 
抽取 了 个 样本 虱 (j=1，…，LZ) 后 ， 这 些 样本 集 是 彼此 相似 的 ， 因 为 它们 是 从 相同 的 原始 样 
本 数据 源 抽取 的 ， 但 是 源 于 随机 性 而 又 稍 有 不 同 。 基 学 习 器 d, 在 这 工 个 样本 集 的 为 上 训练 。 
一 个 学 习 算 法 是 不 稳定 算法 ( unstable algorithm) ， 如 果 训 练 集 中 很 小 的 变化 会 引起 所 产生 学 
习 器 很 大 的 差异 ， 即 学 习 算法 具有 高 方差 。 装 袋 是 自助 聚集 ( bootstrap aggregating ) 的 简单 说 
法 ， 就 是 使 用 自助 法 产生 二 个 训练 集 ， 并 使 用 不 稳定 的 学 习 过 程 训练 工 个 基 学 习 器 ， 并 在 检 
验 时 取 ( 预 测 的 ) 平 均值 ( Breiman1996) 。 装 袋 可 用 于 分 类 和 回归 。 在 用 于 回归 的 情况 下 ,为 
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了 更 加 鲁 棒 ， 可 以 在 组 合 预测 结果 时 以 中 值 来 取代 平均 值 。 

诸如 决策 树 和 多 层 感知 器 这 样 的 算法 是 不 稳定 的 。 最 近邻 算法 是 稳定 的 ， 但 是 精简 的 
最 近邻 算法 是 不 稳定 的 (Alpaydin1997) 。 如 果 原 始 训练 集 很 大 ， 则 我 们 可 能 希望 使 用 自助 
法 来 从 它 产生 小 一 些 的 数据 集 (N'< N) , SX, 的 自助 副本 将 会 非常 相似 ， 从 而 d 将 高 
度 相关 。 


15.5 提升 


在 装 袋 中 ， 产 生 互补 的 基 学 习 器 是 靠 运 气 以 及 学 习 方法 的 不 稳定 性 。 在 提升 中 ， 我 们 通 
过 在 前 一 个 学 习 器 所 犯 的 错误 上 训练 下 一 个 学 习 器 ， 积 极地 尝试 产生 互补 的 学 习 器 。 原 始 的 
提升 (boosting) 算 法 ( Schapire1990) 组 合 了 三 个 弱 学 习 器 来 产生 一 个 强 学 习 器 。 所 谓 弱 学 习 器 
(weak learer) 是 误差 概率 小 于 1/2 的 学 习 器 ， 这 使 得 它 对 两 类 问题 比 随机 猜测 要 好 ， 而 强 
学 习 器 (strong leamer) 具 有 任意 小 的 误差 概率 。 

给 定 一 个 大 训练 集 ， 我 们 随机 地 将 其 划分 为 三 部 分 。 使 用 X, 来 训练 4,。 然 后 取 X, 并 将 
EMA dio HERA d, 误 分 类 的 实例 以 及 在 X, 中 被 d, 正确 分 类 的 一 些 实例 一 起 作为 d, 的 训 
练 集 。 然 后 取 X， 并 将 它 馈 入 d, 和 d,。 其 中 d, 和 d, 输出 不 一 致 的 实例 形成 d, 的 训练 集 ， 在 
检验 期 间 ， 给 定 一 个 实例 我 们 首先 将 其 提供 给 d, 和 d,; 如 果 二 者 输出 一 致 ， 这 就 作为 输出 
结果 ， 和 否则 d, 的 输出 作为 结果 。Schapire( 1990) 的 研究 表明 这 个 整体 系统 降低 了 错误 率 ， 并 
且 错 误 率 可 以 通过 递归 地 使 用 这 样 的 系统 (即将 三 个 模型 构成 的 提升 系统 作为 更 高 层 系统 的 
dj) 而 任意 降低 。 

尽管 这 种 方法 很 成 功 ， 但 是 提升 方法 的 不 足 之 处 在 于 需要 一 个 非常 大 的 训练 集 。 样 本 需 
要 一 分 为 三 ， 而 且 第 二 和 第 三 个 分 类 器 只 在 由 其 前 的 分 类 器 犯错 的 实例 构成 的 子 集 上 训练 。 
因此 ， 除 非 有 一 个 很 大 的 训练 集 ， 否 则 d, 和 d, 将 无 法 拥有 合理 大 小 的 训练 集 。Drucker 等 
(1994) 在 其 提出 的 提升 多 层 感知 器 中 使 用 了 有 118000 个 实例 的 数据 集 ， 用 于 光学 手写 数字 
识别 。 

Freund 和 Schapire(1996) 提 出 了 提升 的 一 个 变种 ， 叫 AdaBoost， 是 自 适应 提升 的 缩写 ， 
其 中 重复 使 用 相同 的 训练 集 因 而 不 要 求 数据 集 很 大 。AdaBoost 还 可 以 组 合 任意 数量 的 基 学 习 
器 ， 不 一 定 是 三 个 。 

已 经 有 很 多 AdaBoost 的 变种 被 提出 ; 这 里 我 们 讨论 原始 的 算法 AdaBoost M1( 见 图 15-2); 其 
思想 是 将 实例 抽取 的 概率 修改 成 误差 的 函数 。 令 p 表示 实例 对 (x',r') 被 抽取 用 于 训练 第 j 
个 基 学 习 器 的 概率 。 最 初 ， 所 有 的 p; =1/N。 然 后 ， 以 如 下 方式 添加 新 的 基 学 习 器 : 从 j=1 
Fih, e, 表示 d, 的 错误 率 。AdaBoost 要 求 任意 的 e <1/2; 如 果 不 满足 ， 即 停止 添加 新 的 基 
学 习 器 。 注 意 ， 这 里 的 错误 率 并 非 基 于 原始 问题 ， 而 是 基于 在 第 j 步 中 使 用 的 数据 集 。 定 
义 B=sj//(1 -sy)<1， 并 且 设 置 p;.，= Bp; WR d, 正确 地 对 x’ 分类， 否则 设置 p),，= p; o 
由 于 pj, 应 该 是 概率 ， 所 以 我 们 用 pa RA E pia 对 其 规范 化 ， 使 它们 的 和 为 1。 这 样 做 
的 效果 是 将 被 正确 分 类 的 实例 的 (抽取 ) 概 率 降低 ， 而 将 被 错误 分 类 的 实例 的 概率 提高 。 


然后 ,根据 这 些 修改 后 的 概率 p;., ， 从 原样 本 中 有 放 回 地 抽取 相同 大 小 的 样本 集 ， 并 用 于 
训练 由 ie 
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训练 : 
For BAH (x, la ex, Wife pi =1/N 
For 所 有 的 基 分 类 器 j=1，…, L 
按照 概率 p; 随机 地 从 在 抽取 属 
BUB X, Uf d, 
For A(x", r), HEX -d GI) 
计算 错误 率 : ej Epp dO] 天 中) 
Y 2,2172, then L-j-1; Stop 
Bre cuj) 
For 每 个 (x',，r)/ 如 果 正确 ， 则 减低 概率 


If yj =r! then pj, , p else p, ip] 


/规范 化 概率 : 
Zi Evers Phos Pho /Z 
检验 : 
WHE x, HN GO. j=l, =, L 
计算 类 输出 ，i=1，…，K: 


n= (meg) ac 











FA 15-2  AdaBoost 算法 


这 样 做 的 效果 是 使 得 由, 更 专注 于 被 由 误 分 类 的 实例 。 这 就 是 为 什么 基 学 习 器 以 简单 而 
不 是 准确 为 原则 选取 ， 否 则 下 一 个 训练 样本 集 将 仅仅 包含 少数 离 群 点 和 噪声 实例 的 多 次 重 
复 。 例 如 ， 对 于 决策 树 ， 使 用 的 是 决策 树桩 ( decision stump) ， 一 种 只 有 一 层 或 两 层 的 树 。 
因此 ， 很 明显 它们 是 有 偏 的 但 是 方差 上 的 降低 比较 大 ， 而 且 总 体 误 差 也 会 降低 。 像 线性 判别 
式 这 样 的 算法 本 身 具 有 低 方差 ， 我 们 不 能 通过 AdaBoost 而 获得 更 低 的 方差。 

一 旦 完成 训练 ，AdaBoost 就 采用 投票 方法 。 给 定 一 个 实例 ， 所 有 的 d; 决定 其 分 类 ， 而 
后 取 一 个 加 权 的 投票 结果 ， 其 中 权重 与 基 学 习 器 (在 训练 集 上 的 ) 准 确 率 成 正比 : wj = log( 17 
B;) Freund 和 Schapire( 1996) 3 8j] AdaBoost 在 22 个 基准 问题 上 提高 了 准确 率 ， 在 一 个 基准 
问题 上 准确 率 相同 ， 而 在 4 个 基准 问题 上 准确 率 较 差 。 

Schapire 等 (1998 ) 认为 AdaBoost 的 成 功 源 于 其 扩展 边缘 (margin) 。 如 果 边 缘 增加 ， 训 练 
实例 可 以 更 好 的 被 分 隔 而 使 误 分 类 不 易 发 生 。 这 使 得 AdaBoost 的 目标 和 支撑 向 量 机 (10.9 
节 ) 类 似 。 

在 AdaBoost 中 ， 尽 管 不 同 的 基 学 习 器 使 用 稍 有 差异 的 训练 集 ， 但 是 这 种 差异 和 装 袋 一 
样 是 靠 运气 ， 所 不 同 的 是 它 是 前 一 个 基 学 习 器 的 误差 的 函数 。 提 升 针对 一 个 特定 问题 的 实际 
性 能 显然 依赖 于 数据 和 基 学 习 器 。 为 此 ， 需 要 有 充足 的 训练 数据 ， 并 且 基 学 习 器 应 当 是 弱 的 
但 又 不 是 太 弱 ， 而 且 提 升 对 噪声 和 离 群 点 尤其 敏感 。 

AdaBoost 已 经 被 推广 到 回归 : 由 Avnimelech 和 Intrator ( 1997 ) 提出 的 一 种 直截了当 的 方 
法 是 ， 检 查 预 测 误差 是 否 大 于 某 个 阅 值 ， 如 果 是 则 将 其 标记 为 错误 ， 然 后 使 用 正规 的 
AdaBoost。 在 另 一 个 版 本 中 (Drucker1997) ， 抽 取 概率 根据 误差 量 进行 修改 ， 使 得 前 一 个 基 
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学 习 器 预测 误差 较 大 的 实例 ， 在 下 一 个 基 学 习 器 的 训练 中 有 较 大 的 概率 被 抽取 。 最 后 用 加 权 
平均 或 中 值 来 组 合 这 些 基 学 习 器 的 预测 结果 。 


15.6 重 温 混 合 专家 模型 


在 投票 中 ， 权 重 w 在 输入 空间 上 是 固定 的 。 在 混合 专家 模型 构架 中 (12. 8 节 ) ， 存 在 一 
个 门 网 络 ， 其 输出 取 作 投票 的 权重 。 因 而 这 一 构架 可 以 被 看 作 是 一 种 投票 方法 ， 其 中 投票 依 
赖 于 输入 ， 而 且 可 能 因 输 入 不 同 而 有 所 不 同 。 混 合 专家 模型 使 用 的 竞争 学 习 算法 局 部 化 了 基 
学 习 器 ， 使 得 每 个 基 学 习 器 变 成 输入 空间 的 一 个 不 同 领域 的 专家 ， 并 且 其 权重 w (x) 在 其 专 
长 的 领域 中 接近 于 1。 最 终 的 输出 与 投票 一 样 是 加 权 平均 


y= Y uM, (15.8) 
不 同 之 处 在 于 基 学 习 器 和 权重 二 者 均 是 输入 的 一 个 函数 ( 见 图 15-3) 。 





图 15-3 ”混合 专家 模型 是 一 种 投票 方法 ， 其 中 ， 像 由 门 网 络 给 出 的 那样 ， 
投票 是 输入 的 函数 。 组 合 系统 了 也 包含 这 种 门 系统 


Jacobs(1997) 显示 在 混合 专家 模型 构架 中 ， 专 家 是 有 偏 的 ， 但 是 负 相关 的 。 随 着 训练 的 
进行 ， 偏 倚 降低 而 专家 的 方差 增加 ， 但 与 此 同时 ， 随 着 专家 局 部 化 于 输入 空间 的 不 同 部 分 ， 
它们 的 协 方差 为 负 并 且 越 来 越 小 。 根 据 (15.6) 式 ， 这 将 降低 总 体 方差 ， 进 而 降低 误差 。 在 
12.8 节 ， 我 们 讨论 了 专家 和 门 网 络 均 为 线性 函数 的 情况 ， 但 是 非 线性 方法 同样 可 以 用 于 二 
者 。 这 将 降低 专家 的 偏 倚 ， 但 是 有 增加 专家 方差 和 过 分 拟 合 的 风险 。 


15.7 BEZE 


A& & i£ 46 (stacked generalization) 是 Wolpert(1992) 提 出 的 一 种 扩展 的 投票 方法 ， 其 中 基 

学 习 器 的 输出 组 合 方式 不 必 是 线性 的 ， 而 是 通过 一 个 组 合 器 系统 /(* | 中) 。 组 合 器 是 另 一 个 
学 习 器 ， 其 参数 中 也 要 训练 ( 见 图 15-4) : 

y =f/(di,d,,,d, |) (15.9) 

当 基 学 习 器 给 出 某 种 输出 组 合 时 ， 组 合 器 学 习 什 么 是 正确 的 输出 。 我 们 不 能 在 训练 数据 

上 训练 组 合 器 函数 ， 因 为 基 学 习 器 可 能 在 记忆 训练 数据 ; 组 合 器 系统 应 当真 正 的 学 习 基 学 习 

器 是 如 何 犯错 (产生 误差 ) 的 。 因 此 组 合 器 应 当 在 基 学 习 器 训练 时 没有 出 现 的 数据 上 训练 。 
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尽管 开销 很 大 ，Wolpert 提出 使 用 留 一 法 ， 而 当 样本 集 很 大 时 使 用 上 折 交 叉 确 认 更 有 效 ! 


LO 


图 15-4 在 层 登 泛 化 中 ,组 合 器 是 另 一 个 学 习 器 ， 并 且 不 必 像 投票 一 样 是 线性 的 
An fC | w,，…，w,) 是 线性 模型 ， 其 约束 为 w 20, Sw, =1， 则 最 佳 权 重 可 通过 受 


7 
约束 的 回归 来 获得 。 但 是 请 注意 ， 对 组 合 器 函数 没有 限制 ， 并 且 不 像 投票 ， 组 合 可 以 是 非 线 
性 的 。 例 如 ， 态 ") 可 以 是 一 个 多 层 感知 器 ， 中 是 其 连接 权重 。 基 学 习 器 d, 的 输出 定义 了 一 个 
新 的 上 维 空间 ， 在 该 空间 组 合 器 函数 学 习 输 出 的 判别 式 /回归 函数 。 

在 层 倒 泛 化 中 ， 我 们 希望 基 学 习 器 尽 可 能 不 同 ， 使 得 它们 可 以 相互 补充 ， 并 且 每 个 基 学 
习 器 都 基于 不 同 的 学 习 算 法 是 很 可 取 的 。Zhang、Mesirov 和 Waltz( 1992) 使 用 层 伙 进行 蛋白 
质 二 级 结构 预测 ， 显 著 提高 了 准确 率 。 在 他 们 的 研究 中 ， 基 学 习 器 分 别 是 参数 分 类 器 、 最 近 
邻 分 类 器 和 一 个 多 层 感知 器 。 组 合 器 是 另 一 个 多 层 感知 器 。 


15.8 级 联 


级 联 分 类 器 的 思想 是 使 用 一 个 基 学 习 器 d 的 序列 ， 按 照 空间 和 时 间 复 杂 度 或 它们 使 用 
的 数据 表示 的 代价 对 其 进行 排序 ， 使 得 由, 的 代价 高 于 d, ( Kaynak 和 Alpaydin2000) 。 级 联 
(cascading) 是 一 种 多 级 方法 ， 并 且 只 有 在 所 有 前 驱 学 习 器 由 (kt 一 疙 都 不 足够 确信 时 才 使 用 
也 ( 见 图 15-5)。 为 此 ， 与 每 个 学 习 器 相关 联 的 是 一 个 置信 度 w,， 当 有 w> 0, 时 我 们 说 d, 对 
其 输出 是 确信 的 并 且 其 结果 可 用 ,其 中 1/K<6,<6,.,<1 JURE RUE. YEA), eU 


函数 被 设置 为 最 高 的 后 验 : w = max,d,; 这 正 是 用 于 拒绝 的 策略 (3.3 节 ) 。 
ye d, 








图 15-5 级 联 是 一 个 多 级 方法 ， 其 中 使 用 一 个 分 类 器 序列 ， 并 且 
仅 当前 驱 分 类 器 不 够 好 时 才 使 用 下 一 个 分 类 器 
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如 果 所 有 前 驱 学 习 器 的 结果 均 不 够 确信 ， 我们 才 使 用 学 习 器 d: 

y 2d, — deu 0, 并且 对 于 所 有 <j 有 ww <6, (15. 10) 

从 j=1 开始 ， 给 定 一 个 训练 集 ， 我 们 训练 5。 然 后 我 们 从 另外 一 个 确认 集中 找 出 所 有 
使 d) 不 够 好 (不 确信 ) 的 实例 ， 将 其 组 成 d,, 的 训练 集 。 注 意 ， 和 AdaBoost 不 同 的 是 ， 这 里 
我 们 不 仅 选取 在 前 一 个 基 学 习 器 上 误 分 类 的 实例 ， 同 时 还 选取 其 不 自信 的 实例 。 这 包括 误 分 
类 的 实例 以 及 后 验 概率 不 足够 高 的 实例 ; 这 些 实例 位 于 边界 的 正确 一 侧 ， 但 是 它们 与 判别 式 
之 间 的 距离 ( 即 边缘 ) 不 足够 大 。 

级 联 的 思想 是 : 在 初期 使 用 简单 的 分 类 器 处 理 大 多 数 实例 ， 而 更 为 复杂 的 分 类 器 仅 用 于 
少数 实例 ， 因 此 并 不 显著 增加 总 体 复杂 度 。 这 正和 类 似 于 投票 的 多 专家 方法 相反 ， 这 些 方法 
中 ， 所 有 基 学 习 器 为 每 个 实例 产生 输出 。 如 果 问 题 空间 比较 复杂 ， 几 个 每 一 级 的 复杂 性 递增 
的 基 学 习 器 可 能 级 联 。 为 了 不 增加 基 分 类 器 的 个 数 ， 少 数 没有 被 任何 基 分 类 器 覆盖 的 实例 将 
被 原样 保留 ， 并 通过 一 个 非 参数 分 类 器 (如 上 -NN) 来 处 理 。 

级 联 的 归纳 偏 倚 是 类 可 以 通过 复杂 度 递增 的 少量 “规则 ”来 解释 ， 并 存在 一 个 没有 被 
这 些 规则 覆盖 的 小 的 “异常 ”集合 。 这 些 规则 通过 简单 的 基 学 习 器 来 实现 ， 例 如 复杂 度 递 
增 的 感知 器 ， 学 习 在 整个 输入 空间 上 有 效 的 一 般 规则 。 异 常 是 局 部 实例 ， 最 好 由 非 参数 模型 
处 理 。 

因此 ， 级 联 位 于 参数 和 非 参 数 分 类 两 个 极端 之 间 。 前 者 (例如 线性 模型 ) 寻找 覆盖 所 有 
实例 的 单个 规则 。 而 非 参 数 模型 (如 k-NN) 存 储 所 有 的 实例 而 不 产生 任何 解释 它们 的 简单 规 
则 。 级 联 产生 一 个 (或 多 个 ) 规 则 ， 以 尽 可 能 低 代价 地 解释 大 部 分 实例 ， 并 将 其 余 实例 作为 
异常 存储 。 这 在 很 多 学 习 应 用 中 是 有 道理 的 。 例 如 ， 在 多 数 情况 下 ， 英 语 动词 的 过 去 式 是 在 
其 后 加 “d” 或 “ed”; 但 也 存在 不 规则 动词 并 不 符合 这 一 规则 的 情况 ， 例 如 “go/went"。 


15.9 注释 


组 合 学习 器 的 思想 是 将 复杂 的 任务 划分 为 较 简单 的 子 任务 ， 这 些 子 任务 可 以 由 分 别 训练 
的 基 学 习 器 处 理 。 每 个 基 学 习 器 有 其 自己 的 子 任务 。 如 果 我 们 用 一 个 大 的 学 习 器 包含 所 有 的 
基 学 习 器 ， 则 会 有 过 分 拟 合 的 风险 。 例 如 ， 考 虑 取 三 个 多 层 感知 器 上 的 投票 ， 每 个 感知 器 具 
有 一 个 隐藏 层 。 如 果 我 们 用 线性 模型 组 合 其 输出 ， 将 它们 组 合 在 一 起 ， 则 我 们 有 一 个 大 的 、 
具有 两 个 隐藏 层 的 多 层 感 知 器 。 如 果 我 们 用 全 部 样本 来 训练 这 个 大 模型 ， 则 很 可 能 产生 过 分 
拟 合 。 而 当 我 们 分 别 对 三 个 多 层 感 知 器 训练 时 ， 比 如 用 ECOC、 装 袋 等 ， 就 如 同 为 这 个 大 的 
多 层 感知 器 的 第 二 层 隐藏 节点 定义 了 所 需要 的 输出 。 这 就 为 整体 的 学 习 器 应 对 什么 进行 学 习 
附加 了 约束 ， 进 而 简化 了 学 习 任务 。 

组 合 的 一 个 缺点 是 组 合 系统 不 是 可 解释 的 。 例 如 ， 即 使 决策 树 是 可 解释 的 ， 装 和 袋 的 或 提 
升 的 决策 树 也 不 是 可 解释 的 。 具 有 权重 如 - 1/0/ + 1 的 纠 错 码 允 许 某 种 形式 的 可 解释 性 。 
Mayoraz 和 Moreira( 1997) 讨论 了 用 于 学 习 纠 错 输出 码 的 递增 方法 ， 其 中 基 学 习 器 在 需要 时 添 
Jm. Allwein, Schapire 和 Singer(2000) 讨 论 了 将 多 类 目标 问题 用 两 类 目标 问题 编码 的 各 种 方 
法 。Alpaydm 和 Mayoraz(1999) 考 虑 了 ECOC 的 应 用 ， 其 中 对 线性 基 学 习 器 组 合 得 到 非 线性 
判别 式 ， 他 们 还 提出 了 从 数据 中 学 习 ECOC JS ERSTE 

最 早 也 是 最 直观 的 方法 就 是 投票 。Xu、Krzyzak 和 Suen(1992) 对 早期 工作 进行 了 回顾 。 
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Benedikttson 和 Swain( 1992 ) 使 用 投票 方法 进行 多 源 组 合 。Kittler 4 (1998) 对 近期 的 投票 方法 
进行 了 回顾 ， 同 时 讨论 了 对 数据 的 多 表示 进行 组 合 的 应 用 。 该 人 脸 识 别 应 用 使 用 三 种 表示 : 
正面 人 脸 图 像 、 人 脸 轮 廓 图 像 和 声音 。 投 票 模型 的 误差 率 低 于 使 用 一 种 表示 的 误差 率 。Ali- 
mo glu 和 Alpaydin1997 给 出 了 另 一 个 针对 手写 数字 识别 的 应 用 ， 其 中 对 两 种 信息 源 进行 了 组 
fu 一 种 是 数字 在 触摸 书写 板书 写 时 的 笔 移动 时 态 数据 ， 另 一 种 是 数字 书写 后 的 静态 二 维 位 
图 图 像 。 在 这 个 应 用 中 ， 使 用 其 中 一 种 数据 表示 的 两 个 分 类 器 误差 率 约 为 5% ,但 是 通过 组 
合 误差 率 降 至 3% 。 同 时 在 该 应 用 研究 中 还 表明 关键 的 阶段 在 于 设计 互补 的 学 习 器 和 /或 数 
据 表示 ， 学 习 器 的 组 合 方式 倒 不 像 前 者 那样 重要 。 

Jacobs(1995 ) 表 明 工 个 依赖 的 专家 和 上 个 独立 的 专家 同样 有 价值 ， 其 中 L'<L。 在 某 些 
环境 下 ， 投 票 模型 与 贝 叶 斯 技术 产生 相同 的 结果 (Jacobs1995) 。(15.4) 式 的 先 验 概率 因而 可 
以 由 超 参 数 的 分 布 来 建 模 ， 并 在 理想 情况 下 ， 应 在 整个 模型 参数 空间 进行 集成 。 这 种 方法 在 
实际 中 并 非 总 是 可 行 的 ， 并 且 需 要 求助 于 近似 或 抽样 。 随 着 贝 叶 斯 统计 的 进展 ， 这 些 超 贝 叶 
斯 技术 可 能 会 在 不 远 的 将 来 变 得 越 来 越 重要 。 

自 20 世纪 90 ERI, 组合 多 学 习 器 就 已 经 成 为 机 器 学 习 领 域 中 的 一 个 流行 课题 ， 从 那 
时 起 研究 一 直 在 进行 ( Dietterich1997) 。AdaBoost 目前 被 认为 是 最 好 的 机 器 学 习 算法 之 一 ， 并 
且 一 旦 基 学 习 器 本 身 及 其 数量 确定 之 后 ， 它 几乎 是 完全 自动 的 。 同 时 也 存在 AdaBoost 的 其 
他 版 本 ， 其 中 下 一 个 基 学 习 器 在 前 一 个 学 习 器 的 残余 之 上 进行 训练 ( Hastie 、Tibshirani 和 
Friedman2001 ) 。 在 www. boosting. org 网 站 上 可 以 找到 最 近 发 表 的 关于 模型 组 合 的 一 般 性 以 及 
专门 针对 AdaBoost 的 文献 。 尽 管 多 模型 (组 合 ) 的 实际 应 用 非常 成 功 ， 但 是 关于 模型 组 合 如 
何 或 为 什么 有 效 的 讨论 仍然 在 继续 ; 例如 Breiman1998 、Bauer 和 Kohavil999,, 


15. 10 习题 


l. 如 果 每 个 基 学 习 器 是 独立 同 分 布 的 并 且 正 确 的 概率 p 1/2, 那么 虐 个 分 类 器 上 的 一 个 多 
数 表决 给 出 正确 答案 的 概率 是 什么 ? 

2. 在 装 伐 中 ， 为 了 产生 工 个 训练 集 ， 以 上 L 折 交叉 确认 来 替代 自助 法 的 效果 如 何 ? 

3. 提出 一 个 学 习 纠 错 输出 码 的 增 量 算法 ， 其 中 新 的 二 类 问题 在 需要 时 添加 ， 以 便 更 好 地 解 
决 多 类 问题 。 

4. 使 用 线性 感知 器 作为 组 合 器 函数 的 话 ， 投 票 和 层 全 的 区 别 是 什么 ? 

5. 在 级 联 中 ， 为 什么 要 求 0,20? 
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第 16 章 增强 学 习 


在 增强 学 习 中 ， 学 习 器 是 一 个 制定 决策 的 智能 主体 。 智 能 主体 在 其 所 处 的 环境 中 执行 一 
些 动作 并 根据 其 试图 解决 一 个 问题 所 执行 的 动作 而 获得 奖励 (或 惩罚 ) 。 经 过 反复 尝试 运行 ， 
学 习 程序 应 当 可 以 学 习 得 到 最 优 策略 ， 即 一 个 最 大 化 总 体 奖励 的 动作 序列 。 


16.1 引言 


假设 我 们 要 构建 一 个 学 习 下 国际 象棋 的 机 器 。 在 这 种 情况 下 ， 我 们 不 能 使 用 监督 学 习 ， 
原因 有 二 : 首先 ， 请 一 位 国际 象棋 老师 带领 我 们 遍历 许多 棋局 并 告诉 我 们 每 个 位 置 的 最 佳 棋 
步 的 代价 非常 昂贵 。 其 次 ， 在 很 多 情况 下 ， 根 本 就 没有 最 佳 棋 步 ; 一 个 棋 步 的 好 坏 依赖 于 其 
后 的 多 个 棋 步 。 单 一 的 棋 步 并 不 算数 ; 而 如 果 经 过 一 个 棋 步 序 列 我 们 赢得 了 比赛 ， 则 该 棋 步 
序列 才 是 好 的 。 而 整个 过 程 唯一 的 反馈 是 在 最 后 我 们 赢得 或 是 输 掉 棋 局 时 才 产生 。 

另 一 个 例子 是 置 于 迷宫 中 的 机 器 人 。 机 器 人 按照 四 个 罗盘 方向 之 一 进行 移动 ， 并 进行 一 
系列 的 移动 到 达 迷 富 出 口 。 只 要 机 器 人 在 迷宫 中 ， 就 不 存在 反馈 ， 并 且 机 器 人 尝试 各 种 移 
3, 直至 到 达 出 口 ， 只 有 这 时 它 才 得 到 一 个 奖励 。 在 这 种 情况 下 ， 机 器 人 不 存在 对 手 ， 但 是 
我 们 可 能 更 偏好 更 短 的 (到 达 出 口 ) 的 路 径 ， 这 意味 着 我 们 是 在 和 时 间 比 赛 。 

这 两 个 应 用 有 多 个 共同 点 : 存在 一 个 称 之 为 智能 主体 (agent) 的 决策 者 ， 并 置 其 于 某 一 
环境 (environment) 中 ( 见 图 16-1)。 在 国际 象棋 的 例子 中 ， 棋 手 是 决策 者 而 环境 是 棋盘 ; 在 
第 二 个 例子 中 ， 迷 宫 是 机 器 人 的 环境 。 在 任何 时 候 ， 环 境 总 是 处 于 某 种 状态 (state) ， 该 状态 
来 自 于 一 组 可 能 的 状态 之 一 ， 例 如 ， 棋 盘 的 布局 状态 ， 机 器 人 在 迷宫 中 的 位 置 。 决 策 者 可 以 
做 一 组 可 能 的 动作 : 棋盘 上 棋子 的 合法 移动 ， 机 器 人 沿 着 可 能 的 方向 移动 而 不 会 挤 墙 等 。 一 
且 选 择 并 做 了 某 一 动作 ， 状 态 就 随 之 改变 。 问 题 的 解决 需要 执行 一 系列 的 动作 ， 之 后 我 们 才 
得 到 反馈 ， 反 馈 以 极 少 发 生 的 奖励 (reward) 的 形式 给 出 ， 通 常 只 有 在 完整 的 动作 序列 执行 完 
毕 才 发 生 。 奖 励 对 问题 进行 了 定义 ， 同 时 是 构建 一 个 会 学 习 的 (learning) 智 能 主体 所 必须 的 。 
会 学 习 的 智能 主体 学 习 解决 一 个 问题 的 最 佳 步骤 ， 其 中 “最 佳 ”是 以 获取 最 大 累积 奖励 的 
动作 序列 来 量化 。 以 上 就 是 增强 学 习 (reinforcement leaming) 的 背景 。 


Cone) 


图 16-1 智能 主体 和 环境 进行 交互 。 在 环境 的 任意 一 个 状态 ， 智 能 
主体 执行 一 个 改变 环境 状态 的 动作 并 获得 一 个 奖励 
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增强 学 习 与 之 前 讨论 的 各 种 学 习 方法 的 不 同 之 处 在 于 以 下 几 个 方面 : 它 称 之 为 “和 批 
评 者 一 起 学 习 ”， 而 与 之 前 和 老师 一 起 学 习 的 监督 学 习 方 法 相反 。 批 评 者 (critic) 不 同 于 老师 
之 处 在 于 他 并 不 告诉 我 们 做 什么 ， 而 仅仅 告诉 我 们 之 前 所 做 的 怎么 样 ; 批评 者 永远 不 会 提前 
提供 信息 。 批 评 者 提供 的 反馈 极 少 ， 并 且 当 他 提供 时 ， 也 是 事后 提供 。 这 就 导致 了 信 度 分 配 
(credit assignment) 问题 : 在 执行 若干 动作 并 获得 奖励 后 ， 我 们 希望 对 之 前 所 执行 的 单个 动作 
进行 评估 并 找到 可 以 引领 我 们 赢得 奖励 的 那些 动作 ， 以 便 对 其 记录 并 在 之 后 使 用 。 正 如 我 们 即 
将 看 到 的 ， 一 个 增强 学 习 程 序 所 做 的 是 为 中 间 状 态 或 动作 产生 一 个 内 部 值 (intemal value) , 2% 
表明 这 些 状态 或 动作 在 引领 我 们 达到 目标 并 获取 真正 的 奖励 方面 有 多 好 。 一 旦 学 习 到 这 样 的 
内 部 奖励 机 制 ， 智 能 主体 就 可 以 只 执行 最 大 化 内 部 奖励 的 局 部 的 动作 。 

问题 的 解决 需要 执行 一 个 动作 序列 ， 而 从 这 一 角度 ， 我 们 可 想到 第 13 章 讨论 的 马尔 可 
夫 模型 。 事 实 上 ， 我 们 使 用 马尔 可 夫 决策 过 程 来 对 智能 主体 建 模 。 不 同 之 处 在 于 ， 对 于 马尔 
可 夫 模 型 ， 存 在 一 个 外 部 过 程 来 产生 一 个 我 们 对 其 观测 和 建 模 的 信号 序列 ， 如 语音 。 而 在 增 
强 学 习 中 ， 产 生动 作 序 列 的 是 智能 主体 。 之 前 ， 我 们 还 区 别 可 观测 的 和 隐藏 的 马尔 可 夫 模 
型 ， 分 别 对 应 系统 状态 是 可 观测 的 或 是 隐藏 的 (并 且 也 需要 推断 ) 。 类 似 地 ， 有 时 候 我 们 使 
用 一 个 部 分 可 观测 的 马尔 可 夫 决策 过 程 来 建 模 ， 其 中 智能 主体 不 是 确切 地 知道 其 所 处 的 状 
态 ， 而 是 需要 通过 使 用 传感器 的 观测 以 某 种 非 确定 性 对 其 进行 推断 。 例 如 ， 机 器 人 在 房间 中 
移动 时 ， 机 器 人 可 能 不 知道 其 在 房间 中 的 确切 位 置 ， 也 不 知道 障碍 物 和 目标 的 确切 位 置 ， 而 
是 通过 一 个 照相 机 提供 的 有 限 图 像 来 做 决策 。 


16.2 单 状态 情况 : K 禹 赌博 机 问题 


我 们 从 一 个 简单 的 例子 开始 。K 臂 赌博 机 是 一 种 假想 的 具有 天 个 手柄 的 老虎 机 。 可 做 的 
动作 是 选择 并 拉 下 其 中 的 一 个 手柄 ， 而 由 此 所 赢 取 的 一 定量 的 钱 就 是 和 这 个 手柄 (动作 ) 相 
关联 的 奖励 。 任 务 是 决定 拉 下 哪个 手柄 ， 以 便 得 到 最 大 奖励 。 这 是 一 个 分 类 问题 ， 其 中 我 们 
选择 下 个 手柄 中 的 一 个 。 如 果 是 监督 学 习 ， 则 老师 会 告诉 我 们 正确 的 类 ， 即 产生 最 大 收益 
的 类 。 而 在 增强 学 习 中 ， 我们 只 能 尝试 不 同 的 手柄 并 记录 其 中 最 好 的 。 这 是 一 个 简化 的 增强 
学 习 问 题 ， 因 为 只 有 一 个 状态 ， 或 者 说 只 有 一 个 老虎 机 ， 而 我 们 只 需要 确定 所 执行 的 动作 。 
另 一 个 称 其 为 简化 问题 的 原因 是 我 们 在 一 个 动作 之 后 立即 得 到 一 个 奖励 ; 奖励 并 没有 被 延 
迟 ， 因 此 在 动作 之 后 可 以 立即 看 到 其 价值 。 

假设 Q(a) 是 动作 a 的 价值 。 最 初 ， 对 所 有 a 都 有 Q(a) =0。 当 我 们 尝试 执行 动作 a 时 ， 
我 们 获得 一 个 奖励 " >=0。 如 果 奖 励 是 确定 性 的 ， 拉 下 手柄 a 我 们 总 是 获得 相同 的 奖励 r, 
并 且 在 这 种 情况 下 ， 我 们 可 以 简单 地 令 Q(a) =r。。 如 果 我 们 想 充分 利用 已 有 发 现 ， 一 旦 我 
们 发 现 一 个 动作 a 具有 Q(a)>0， 我 们 就 可 以 不 停 地 选择 它 并 在 每 次 拉 下 手柄 的 时 获得 mn 的 
奖励 。 然 而 ， 很 可 能 还 存在 另 一 个 具有 更 高 奖励 的 手柄 ， 因 此 我 们 还 需要 进行 探索 。 

我 们 可 以 选择 不 同 的 动作 并 对 所 有 的 a 存储 Q(a) 。 只 要 我 们 想 充 分 利用 已 有 发 现 ， 我 
们 可 以 选择 具有 最 高 价值 的 动作 ， 即 

选择 a”， we RQ(a*) = max Q(a) (16.1) 

如 果 奖 励 并 非 确定 的 而 是 随机 的 ， 则 在 选择 相同 的 动作 时 我 们 每 次 获得 不 同 的 奖励 。 奖 

励 量 被 概率 分 布 p(r | a) 定 义 。 在 这 种 情况 下 ， 我 们 定义 Q,(a) 作为 在 时 刻 :时 执行 动作 a 的 
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价值 的 估计 。 它 是 在 时 刻 :之 前 所 有 执行 动作 a 所 获奖 励 的 平均 值 。 一 种 在 线 更 新 方法 可 定 
XWF: 
Qui (a) Q (a) + n[ra(a) -Q - (a)] (16.2) 

其 中 7,,(a) 是 在 (t+1) 时 刻 执行 动作 a 之 后 所 获得 的 奖励 。 

注意 (16. 2) 式 正 是 我 们 在 之 前 章节 中 多 次 使 用 的 delta 规则 (delta rile): n EFJ AF 
(为 了 收敛 而 随时 间 逐 渐 降低 ) ，r,,, 是 期 望 输出 ， 而 Q,(a) 是 当前 的 预测 。Q,,,(a) 是 在 t+1 
时 刻 的 动作 a 的 期 望 值 ， 并 且 随 着 + 的 增加 收敛 到 p(r | 4) 的 均值 。 

完整 的 增强 学 习 问 题 从 以 下 几 个 方面 推广 了 这 种 简单 情况 : 首先 ， 我 们 有 多 个 状态 。 这 
相当 于 同时 存在 具有 多 个 不 同 奖励 概率 p(r | s,，a) 的 老虎 机 ， 而 我 们 需要 对 Q(s,，a,)， 即 
在 状态 s 时 执行 动作 a 的 价值 进行 学 习 。 其 次 ,动作 不 仅 影响 获得 的 奖励 而 且 影响 下 一 状 
态 ， 并 且 我 们 从 一 个 状态 转移 到 另 一 个 状态 。 第 三 ， 奖 励 被 延迟 ， 而 我 们 需要 能 够 从 延迟 的 
奖励 值 估计 立即 值 。 


16. 3 增强 学 习 基础 


学 习 的 决策 者 称 为 智能 主体 (agent)。 智 能 主体 与 环境 (environment) 之 间 进行 交互 。 环 境 
包含 了 除 智能 主体 之 外 的 所 有 东西 。 智 能 主体 具有 感知 器 ， 用 来 决定 其 所 处 的 状态 (state) 。 
当 智 能 主体 执行 一 个 动作 时 ， 环 境 提供 一 个 奖励 (reward)。 时 间 被 离散 化 为 :=0,1, 2,，...， 
FEAL s e S 表示 智能 主体 在 时 刻 :的 状态 ， 其 中 S 是 所 有 可 能 的 状态 集合 。a, e AGO 表示 智 
能 主体 在 时 刻 c 所 执行 的 动作 ， 其 中 气 (s,) 是 在 状态 s, 时 所 有 可 能 执行 的 动作 集合 。 当 处 于 
RE s, 的 智能 主体 执行 动作 a 时 ， 时 钟 哮 噶 ， 接 收 到 奖励 re 名， 并 且 智 能 主体 转移 到 下 
一 个 状态 s,,,。 整 个 问题 通过 马尔 可 夫 决 策 过 程 ( Markov decision process，MDP) 来 建 模 。 奖 
励 和 下 一 状态 分 别 采样 于 它们 相应 的 概率 分 布 p(7,,, |s,，a,) 和 P(s,,, |s,，a,)。 注 意 ,我 
们 所 具有 的 是 一 个 马尔 可 夫 (Markov) 系统 ， 其 中 下 一 时 刻 的 状态 和 奖励 仅仅 依赖 于 当前 状 
态 和 动作 。 在 一 些 应 用 中 ， 奖 励 和 下 一 状态 是 确定 的 ， 并 且 对 某 个 状态 和 所 执行 的 动作 ， 存 
在 一 个 可 能 的 奖励 值 和 下 一 状态 。 

依赖 于 应 用 ， 某 一 状态 可 能 被 指定 为 初始 状态 ， 而 在 一 些 应 用 中 ， 也 存在 一 个 停止 搜索 的 
吸收 终止 (目标 ) 状态 ;所 有 在 终止 状态 执行 的 动作 都 以 概率 1 将 状态 转移 到 自身 并 且 没 有 任何 
奖励 。 从 初始 状态 到 终止 状态 的 动作 序列 称 为 一 个 片段 (episode) ， 或 一 次 试验 (trial) 。 

Ke (policy) m 定义 了 智能 主体 的 行为 并 且 是 从 环境 状态 到 动作 之 间 的 一 个 映射 : 7: 
5 一 外 。 策 略 定义 了 在 任意 状态 s, 可 以 执行 的 动作 : a =T(s#) 。 策 略 的 价值 V"(s,) 是 从 状 
AS s, 开始 ， 遵 循 该 策略 的 智能 主体 所 获得 的 期 望 累积 奖励 。 

在 有 限 阶段 ( finite-horizon) 或 片段 (episodic) 模 型 中 ， 智 能 主体 试图 最 大 化 下 了 个 步骤 的 
期 望 奖励 : 


VG) = En tna menu) = E[ Xn] (16.3) 


某 些 任务 是 连续 的 ， 并 且 不 存在 预先 固定 的 关于 片段 的 限制 。 在 无 限 阶段 (infinite- hori- 
zon) 模型 中 ， 不 存在 序列 长 度 的 限制 ， 但 是 未 来 的 奖励 将 被 打折 扣 : 


VG) = Elta + Yru + Yr +77] = E| Xv] (16.4) 
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其 中 0<y<1 是 折扣 率 (discount rate) ， 保 证 所 返回 的 奖励 是 有 限 的 。 如 果 y =0， 则 只 有 立 
即 的 奖励 算数 。 随 着 y 趋向 于 1， 处 于 未 来 的 奖励 将 更 多 的 被 计算 在 内 ， 而 这 时 我 们 说 智能 
主体 变 得 更 有 远见 了 。? 是 小 于 1 的 ， 因 为 对 于 解决 问题 的 动作 序列 总 是 会 有 一 个 时 间 上 的 
限制 ， 而 且 智能 主体 也 许 是 一 个 靠 电池 运作 的 机 器 人 。 因 此 我 们 喜欢 更 早 获得 奖励 而 非 更 
晚 ， 因 为 我 们 不 确定 智能 主体 可 以 运行 多 久 。 
对 每 个 策略 nm， 存 在 其 价值 V"(s,) ， 我 们 想 要 找到 最 优 策略 (optimal policy) m "使 得 
V (s) = max¥"(s,), Vs, (16.5) 
在 某 些 应 用 中 ， 例 如 在 控制 中 ， 我 们 更 希望 处 理 成 对 的 状态 -动作 值 Q(* ，a,) ， 而 不 是 
简单 的 状态 值 V(s,) 。Y(s,) 表 示 智 能 主体 处 于 状态 s, 的 价值 ， 而 Q(s,，a,) 表示 当 处 于 状态 
s, 时 执行 动作 a, 的 价值 。 我 们 定义 Q* (s, a.) 为 处 于 s, 状态 时 执行 动作 a, 并 在 其 后 遵循 最 
优 策略 的 期 望 累 积 奖励 。 状 态 的 价值 等 于 其 上 可 采取 的 最 优 动作 的 价值 : 
V (s) = maxQ (s,,a,) 


- max£ | Xv] 
= max£ [r,s + EY rs | (16.6) 


= maxE[ ra + yV  (,4)] 


VG) = max (Elta) +y X PCa 8400, V" G2) 


对 于 每 一 个 可 能 的 下 一 状态 s,,,， 我 们 以 概率 P(s,,, | s,，a,) 转 移 到 s,,, 并 自 此 遵循 最 优 
策略 ， 所 得 的 期 望 累积 奖励 是 Y” (s,,,) 。 我 们 在 所 有 可 能 的 下 一 状态 上 求 和 ， 并 且 打 折扣 ， 
因为 它 晚 一 个 时 间 步 。 加 上 立即 期 望 奖励 ， 我 们 得 到 动作 a, 的 总 体 期 望 累 积 奖励 。 最 后 我 
们 选择 所 有 动作 中 最 好 的 一 个 。(16.6) 式 称 为 Bellman 4 X ( Bellman's equation ) ( Bellman 
1957) 。 类 似 地 ， 我 们 还 可 以 有 


Q*(s,a) = Elia] + y X PCs sa) max Q* (sa) (16.7) 

一 旦 获得 了 Q* (s,, aj) 的 值 ， 我 们 就 可 以 定义 策略 m 为 执行 动作 a, ， 它 在 所 有 Q* (s, a) 
中 具有 最 大 值 : 

m^ (s) :选择 a ,其 中 Q (,a/) = maxQ* (s,,a,) (16.8) 


这 意味 着 只 要 我 们 获得 所 有 Q* (s, a) 的 值 ， 那 么 在 每 个 局 部 步骤 中 使 用 贪心 搜索 ， 我 
们 就 可 以 得 到 一 个 最 优 的 步骤 序列 ， 该 序列 最 大 化 累积 (cumulative) 奖励。 


16.4 基于 模型 的 学 习 


我 们 从 基于 模型 的 学 习 开 始 ， 其 中 我 们 完全 知晓 环境 模型 的 参数 p(7,,, ls, a) RP 
(sw 1s,，a,)。 在 这 种 情况 下 ， 我 们 不 要 进行 任何 探索 就 可 以 使 用 动态 规划 直接 对 最 优 价值 
函数 和 策略 求解 。 最 优 价值 函数 是 唯一 的 ， 即 为 (16.6) 式 的 解 。 一 旦 获得 了 最 优 价值 函 
数 ， 最 优 策略 即 为 选择 最 大 化 下 一 状态 价值 的 动作 : 
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m^) = arg max (EL ria 1s] +y Y, PG ls aV (2) (16.9) 


16.4.1 价值 迭代 


为 了 找到 最 优 策略 ， 可 以 使 用 最 优 价值 函数 ， 并 且 存 在 一 个 称 为 价值 选 代 (value itera- 
tion) 的 迭代 算法 ， 业 已 证 明 它 收敛 于 正确 的 了 值 。 价 值 迭 代 算法 的 伪 代 码 在 图 16-2 中 。 





将 KK5) 初 始 化 为 任意 值 
Repeat 
For BAIN eS 
For 所 有 的 ae A 
Qis, a)—E [r|s, a] +y X, PE | s, VG) 


Vs) -max, Q(s, a) 
Until V( s) ict 











图 16-2 3€ T BUS2E2J AY t (GR CRT 
RAAME ARTE CA, Ae PEOR PLUG A [8] BS LEGIS ECT: EL 5: 
max] V^? (s) - V^ (s) | < 8 
其 中 十 迭代 计数 。 由 于 我 们 只 关心 具有 最 大 价值 的 动作 ， 因 此 有 可 能 在 价值 收敛 于 最 优 价 
值 之 前 策略 就 收敛 于 最 优 策略 。 每 次 迭代 的 复杂 度 是 O( | S|? | Al), ， 但 是 下 一 个 可 能 状态 
数目 4 一 | 5 | 很 小 ， 因 此 复杂 度 降低 到 O(k|5| |A| )o 


16.4.2 策略 迭代 


在 策略 迭代 中 ， 我 们 直接 存储 和 更 新 策略 ， 而 非 间接 地 通过 价值 迭代 寻求 最 优 策略 。 图 
16-3 给 出 了 其 伪 代 码 。 其 思想 是 从 一 个 策略 开始 ， 不 断 的 改进 它 直到 没有 改变 为 止 。 价 值 
函数 可 通过 求解 线性 方程 来 计算 。 然 后 检验 是 否 可 以 通过 将 这 些 解 考虑 在 内 而 改进 策略 。 这 
一 步骤 保证 了 对 策略 的 改进 ， 并 且 当 不 再 可 能 继续 改进 时 ， 可 以 确保 所 得 策略 是 最 优 的 。 该 
算法 每 次 迭代 的 时 间 复 杂 度 是 O( A] | S|? + |51，)， 比 价值 迁 代 的 复杂 度 高 ， 但 是 策略 
和 迭代 比价 值 选 代 需 要 更 少 的 迭代 次 数 。 





任意 初始 化 一 个 策略 n 
Repeat 
TW 


通过 解 线性 方程 组 ， 计 算 使 用 = 的 价值 


VD)=E [r]s, m0) +y X, PG [s mG) 
在 每 个 状态 上 改进 策略 
m'(s)—argmax, (E [r|s, a] +y Zee |s, a)¥™(s")) 


Until w 7 ' 











图 16-3 ”基于 模型 学 习 的 策略 选 代 算法 
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16.5 时 间 差 分 学 习 
模型 通过 奖励 和 下 一 状态 概率 分 布 来 定义 ， 而 且 从 16. 4 节 可 以 看 到 ， 当 这 些 值 均 已 知 




















381 








时 ， 可 以 使 用 动态 规划 来 求解 最 佳 策略 。 然 而 ， 这 些 方法 代价 很 高 ， 并 且 我 们 很 少 具有 如 此 
完全 的 关于 环境 的 知识 。 增 强 学 习 更 有 趣 和 更 实际 的 应 用 是 当 我 们 并 不 知道 模型 的 时 候 。 这 
时 ， 我 们 需要 对 环境 进行 探索 来 查询 模型 。 我 们 首先 讨论 如 何 进行 探索 ， 而 后 我 们 讨论 在 确 
定 和 非 确定 情况 下 的 无 模型 学 习 算法 。 尽 管 我 们 并 不 假定 关于 环境 模型 的 全 部 知识 是 已 知 
的 ， 但 是 还 是 要 求 模型 是 固定 的 。 

像 我 们 稍 后 将 要 看 到 的 ， 当 我 们 进行 探索 并 得 以 看 到 下 一 个 状态 的 价值 和 奖励 时 ， 我 们 
利用 这 一 信息 来 更 新 当前 状态 的 价值 。 这 些 算法 称 为 时 间 差分 (temporal difference) 算 法 ， 因 
为 我 们 所 做 的 是 考察 一 个 状态 (或 状态 -动作 对 ) 的 价值 的 当前 估计 值 与 下 一 状态 和 所 得 到 奖 
励 的 折扣 值 之 间 的 差 。 


16.5.1 探索 策略 


为 了 对 环境 进行 探索 ， 一 种 可 能 性 是 使 用 se- 贪 心 (greedy) 搜索， 其 中 我 们 以 概率 e 在 所 
有 可 能 的 动作 中 均匀 、 随 机 地 选择 一 个 动作 ， 即 进行 探索 ; 而 以 概率 1 - e 选择 已 知 的 最 好 
动作 ， 即 进行 利用 。 我 们 并 不 想 无 限 地 持续 探索 ， 而 是 一 旦 进行 了 足够 的 探索 就 开始 对 其 利 
用 ; 为 此 ， 我 们 以 一 个 较 大 的 e 值 开始 ， 并 逐渐 的 减 小 它 。 我 们 需要 确认 所 采取 的 策略 是 软 
(soft) 策 略 ， 也 就 是 说 ， 在 状态 se S 执行 任意 动作 a e 4 的 概率 大 于 0。 

我 们 可 以 根据 概率 进行 选择 ， 使 用 软 最 大 函数 将 价值 转化 为 概率 


P(a|s) = 上) (16.10) 
X aca) 


然后 根据 这 些 概率 对 动作 进行 选择 。 为 了 逐渐 地 从 探索 向 利用 进行 转移 ， 我 们 可 以 使 用 一 个 
“温度 ”变量 7， 并 定义 选择 动作 a 的 概率 为 
P(a|s) = eel Qls.a)/7] (16.11) 
Xj eL QCs,6)/7] 
当 了 很 大 的 时 候 ， 所 有 的 概率 相等 ， 因 而 我 们 进行 的 是 探索 。 而 当 7 很 小 的 时 候 ， 更 好 


的 动作 将 受 青睐 。 因 此 这 时 的 策略 是 以 一 个 大 的 T. 值 开始 并 逐渐 的 减 小 它 ， 这 称 为 退火 
(annealing) 过 程 ， 在 这 种 情况 下 就 是 在 时 间 上 从 探索 平滑 地 过 渡 到 利用 。 


16.5.2 确定 性 奖励 和 动作 


在 无 模型 学 习 中 ， 我 们 首先 讨论 较为 简单 的 确定 性 情况 ， 其 中 对 任意 一 对 状态 - 动作 ， 
只 有 一 个 奖励 和 可 能 的 下 一 状态 。 在 这 种 情况 下 ，(16.7) 式 简化 为 
Q(s,a,) = ray + y maxQG,, pas) (16.12) 
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而 我 们 简单 地 将 其 作为 一 个 赋值 来 更 新 Q(s,，a,) KERE s, 时 ， 我 们 使 用 之 前 所 见 到 的 
各 种 随机 策略 之 一 选择 一 个 动作 o,， 其 返回 一 个 奖励 ",, 并 将 状态 转移 到 s,,,。 然 后 ， 前 一 
动作 的 价值 更 新 为 

Qs, a) — roy + y max Qs a) (16.13) 
其 中 Q 之 上 加 帆 表 示 该 值 为 估计 值 。Q(s,,,，a,,, ) 是 一 个 稍 晚 的 值 ， 因 此 有 更 高 的 概率 是 正 
确 的 。 我 们 以 y 对 其 进行 折扣 并 加 上 立即 奖励 (如 果 有 的 话 )， 并 将 此 作为 前 一 个 Q&(s,，a,) 
的 新 估计 。 这 称 为 后 推 (backup) ， 因 为 这 可 以 被 看 作 是 在 下 一 个 时 间 步 又 中 对 一 个 动作 的 
价值 进行 估计 ， 并 “将 其 后 退 ” 用 来 修改 一 个 当前 动作 的 价值 估计 。 

目前 ， 我 们 假定 所 有 的 值 Q(* a ) 存 储 于 一 张 表 中 ; 稍 后 ， 我 们 会 讨论 当 | |A lA |E 
大 时 如 何 更 为 简洁 地 存储 这 些 信 息 。 

最 初 所 有 Q(s,，a,) 都 为 0， 并 且 作 为 试验 片段 的 结果 及 时 更 新 。 假 设 我 们 有 一 个 状态 转 
移 的 序列 ， 并 且 在 每 次 转移 中 ， 我 们 都 使 用 (16. 13) 式 ， 用 当前 状态 -动作 对 的 Q 值 来 更 新 前 
一 对 状态 -动作 的 Q 值 的 估计 。 在 中 间 状 态 ， 所 有 的 奖励 为 0 从 而 价值 为 0， 因 此 不 进行 更 
新 。 当 到 达 目 标 状态 的 时 候 ， 我 们 得 到 奖励 ~， 因而 可 以 将 前 一 对 状态 -动作 的 Q 值 更 新 为 
yr。 对 于 这 个 之 前 的 状态 -动作 对 ， 由 于 其 立即 奖励 为 0 而 来 自 下 一 对 状态 -动作 对 的 贡献 又 
因为 晚 一 步 而 以 y 折扣 。 于 是 ， 在 下 一 个 片段 中 ， 如 果 我 们 再 次 到 达 这 个 状态 ， 我 们 将 其 前 
一 状态 更 新 为 Yr， 以 此 类 推 。 按 照 这 种 方式 ， 经 过 多 个 片段 之 后 ， 这 一 信息 被 后 推 到 更 早 
的 状态 -动作 对 。 随 着 我 们 寻找 到 具有 更 高 累积 奖励 的 路 径 ， 如 更 短 的 路 径 ，Q 值 不 断 递增 
直到 最 优 值 ， 而 且 这 些 Q 值 绝 不 会 降低 (参见 图 16-4) 。 





图 16-4 说 明 Q 值 只 增 不 减 的 例子 。 图 示 是 一 个 确定 的 网 格 世界 ， 其 中 C 是 目标 状态 并 具有 奖励 
100， 所 有 其 他 立即 奖励 为 0 并 有 y =0.9。 考 虑 由 星 号 标记 的 转移 的 Q 值 ， 而 且 只 考虑 A 和 
8B 两 条 路 径 。 假 设 在 看 到 路 径 B 之 前 先 看 到 路 径 4， 则 有 ymax(0, 81) =72.9。 如 果 之 后 又 
看 到 了 B8， 则 找到 了 更 短 的 路 径 ， 而 Q 的 值 变 为 ymax(100，81) =90。 如 果 路 径 B 在 4 之 前 
被 看 到 ， 则 Q 值 为 ymax(100，0) =90。 于 是 ， 当 看 到 已 时 ，( 寻 找到 路 径 4 时 )Q 的 值 不 变 ， 
因为 ymax(100，81) =90 


注意 ， 这 里 我 们 并 不 知道 奖励 或 下 一 状态 函数 。 这 些 是 环境 的 一 部 分 ， 就 好 像 是 我 们 在 
探索 的 时 候 对 其 进行 查询 。 我 们 也 不 对 其 进行 建 模 ， 虽 然 有 此 可 能 性 。 我 们 只 是 原样 接受 它 
们 并 通过 估计 的 价值 函数 来 直接 学 习 最 优 策略 。 
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16.5.3 非 确定 性 奖励 和 动作 


如 果 奖 励 和 动作 的 结果 不 是 确定 性 的 ， 则 我 们 有 一 个 奖励 从 中 抽样 的 概率 分 布 p(7,,, | s,， 
a,)， 并 且 存在 一 个 下 一 状态 所 服从 的 概率 分 布 P(s,., | s,，a,) 。 这 些 概率 分 布 函数 帮助 我 们 
对 环境 中 不 可 控制 的 力量 所 引发 的 非 确定 性 进行 建 模 。 这 些 不 可 控制 的 力量 如 国际 象棋 中 的 
对 手 ， 西 洋 双 陆 棋 中 的 盘子 ， 或 者 是 我 们 对 系统 知识 的 匮乏 。 例 如 ， 或 许 我 们 有 一 个 不 完美 
的 机 器 人 ， 它 有 时 候 会 无 法 按 预 定 的 方向 前 进而 产生 偏离 ， 或 者 比 期 望 的 距离 走 得 更 近 或 
更 远 。 

在 这 种 情况 下 ， 我 们 有 

Q(s,a) = Elna] *y Y PG 15,2) max Q(s,,, 54.4 (16. 14) 


在 这 种 情况 下 ， 我 们 不 能 进行 直接 的 赋值， 因为 对 于 相同 的 状态 或 动作 ， 我 们 可 能 获得 

不 同 的 奖励 或 者 转移 到 不 同 的 下 一 状态 。 我 们 所 做 的 是 取 移 动 平均 。 这 称 之 为 Q 学 习 (Q 
learning) 算 法 : 

QC5,50,) Ass0) + (ror +y max Qs sa) 7 QG,a)) (16.15) 

BATHE RHE r.i +y maxi, a, MEREEN, o ) HIN IHRER, IF a 


ÂC a 收敛 到 其 均值 。 与 通常 一 样 ， 为 了 收敛 7 的 值 随时 间 递减 ， 并 且 已 经 证 明 该 算 
法 收敛 于 最 优 的 Q* 值 (Watkins 和 Dayan1992) 。Q 学 习 算法 的 伪 代 码 见 图 16-5。 


任意 初始 化 所 有 的 Q(s，a) 
For 所 有 的 片断 
初始 化 s 
Repeat 
使 用 由 QQ 导出 的 策略 (例如 -A è) E a 
执行 动作 a 观测 + 和 ，" 
EKQ, a): 
Qs, a) Q(s, a) + m(r+y max, Q(s", a) -QG, a)) 


Until s 是 终止 状态 

















图 16-5 Q 学 习 ， 它 是 一 种 离 策略 时 间 差 分 学 习 算法 


我 们 还 可 以 认为 (16. 15) 式 的 作用 是 减 小 当前 的 Q 值 和 一 个 时 间 步 又 之 后 的 被 后 推 的 估 
计 之 间 的 差 。 这 类 算法 称 之 为 时 间 差 分 (temporal difference，TD ) 算 法 (Sutton1988 ) 。 

这 是 一 种 离 策 略 (off- policy) 方法， 因为 该 方法 使 用 下 一 个 最 优 动作 的 值 是 而 不 使 用 策 
略 。 在 一 个 在 策略 (on-policy) 方 法 中 ,策略 还 用 于 确定 下 一 个 动作 。Q 学 习 的 在 策略 版 本 就 
是 Sarsa 算法 ， 其 伪 代 码 见 图 16-6。 我 们 看 到 ， 在 策略 的 Sarsa 算法 使 用 从 Q 值 推演 出 的 策略 
来 选择 下 一 个 动作 a'， 并 使 用 该 动作 的 Q 值 来 计算 时 间 差 分 ， 而 不 是 寻找 所 有 可 能 的 下 一 动 
作 a' 并 选择 其 中 最 好 的 。 在 策略 方法 估计 一 个 策略 的 价值 并 用 它 来 执行 动作 。 而 在 离 策 略 
方法 中 ， 这 些 部 分 都 是 分 离 的 ， 并 且 用 于 产生 行为 的 策略 称 为 行为 ( behavior) 策略。 行为 策 
略 事实 上 可 能 不 同 于 称 为 估计 (estimation ) 策 略 的 被 评估 和 被 改进 的 策略 。 
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如 果 采 用 GLIE 策略 来 选择 动作 ，Sarsa 算法 以 概率 1 收敛 到 最 优 策 略 和 状态 -动作 值 。 
GLIE (Greedy in Limit with Infinite Exploration， 使 用 无 限 探索 的 极限 贪心 ) 策略 是 (1) 所 有 状 
态 -动作 对 都 被 无 限 次 访问 ,并且 (2) 策 略 收敛 到 贪心 策略 的 极限 (贪心 策略 是 可 设 定 的 ， 比 
dn, HH se- 贪心 策略 时 设 定 a =1/t) 。 

除了 Q(s,a) 之 外 ,时间 差分 相同 的 思想 还 可 以 用 于 学 习 V(s) 值 。TD #9 (TD learn- 
ing) (Sutton1 988 ) 使 用 如 下 的 更 新 规则 来 更 新 一 个 状态 值 

V(s,) —V(s,) + nr + yV(s.a) - V(s)] (16. 16) 

上 式 依然 是 一 个 delta WW, IEP r., +yV(s,,, ) 是 更 好 的 、 后 一 时 刻 的 预测 ， 而 V(s,) 
是 当前 的 预测 。 它 们 之 间 的 差 即 为 时 间 差 分 ， 而 更 新 是 为 了 减 小 这 个 差 。 更 新 因子 9 逐渐 
减 小 ， 因 而 TD 确保 收敛 到 最 优 值 函 数 V* (s). 





任意 初始 化 所 有 的 Q(:，o) 
For 所 有 的 片段 
mis 
使 用 由 QQ 导出 的 策略 (例如 e D) BE a 
Repeat 
执行 动作 oM rms 
使 用 由 QQ 导出 的 策略 ( 例如 = foo) Eat 
更 新 Q(:， a): 
Qs, a)QG, +nr+y QG', a) -QG, a)) 
ss’, aa^ 


Until s 是 终止 状态 











图 16-6 Sarsa 算法 ， 它 是 Q 学 习 算 法 的 在 策略 版 本 
16.5.4 资格 迹 


前 述 算法 均 为 单 步 算法 ， 因 为 时 间 差 分 仅 用 于 更 新 前 一 个 (状态 值 或 状态 - 动作 对 的 ) 
值 。 资 格 迹 (eligibility traces) 是 对 以 往 出 现 的 状态 -动作 对 的 一 个 记录 ， 它 使 得 我 们 可 以 实现 
时 间 信 度 分 配 ， 并 且 还 可 以 更 新 以 往 达到 的 状态 - 动作 对 的 值 。 我 们 以 Sarsa 算法 学 习 Q 值 为 
例 来 说 明 这 些 都 是 如 何 完成 的 。 对 其 进行 修改 来 学 习 Y 值 是 直截了当 的 。 

为 了 存储 资格 迹 ， 需 要 为 每 个 状态 - 动作 对 关联 一 个 附加 的 内 存 变量 。(*，a) ， 初 始 化 
为 0。 当 状态 -动作 对 (*，a) 被 访问 时 ， 也 就 是 说 在 状态 s 执行 了 动作 a 时 ， 其 资格 被 设置 为 
1; 其 他 所 有 状态 -动作 对 的 资格 乘 以 YA。0<A<1 是 迹 误 减 参数 。 

aera) =| 如 果 s = s, 并 且 a = a， (16.17) 
yAe.as,a) 否则 

如 果 某 一 状态 -动作 对 从 未 被 访问 过 ， 则 其 资格 保持 为 0; 如 果 被 访问 过 ， 随 着 时 间 流 
逝 和 其 他 状态 -动作 对 被 访问 ， 该 状态 的 资格 依赖 于 7 和 A 的 值 进行 衰减 ( 见 图 16-7) 。 
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图 16-7 某 个 值 的 一 个 资格 迹 的 例子 。 访 问 用 星 号 标记 
在 Sarsa 算法 中 ， 在 时 刻 :的 时 间 误 差 为 : 





ô, = Ta + YU Su Gir) -QGa,) (16. 18) 
在 具有 资格 迹 的 Sarsa 中 ， 称 之 为 Sarsa(A) ， 所 有 的 状态 -动作 对 按 下 式 更 新 : 
Q(s,a) —Q(s,a) + nà,e,(s,a) , Vs,a (16.19) 


上 式 对 所 有 状态 -动作 对 的 资格 进行 更 新 ， 更 新 依赖 于 其 过 去 出 现 有 多 久 。A 值 定 义 了 
时 间 信 度 : 如 果 A=0， 则 只 进行 单 步 更 新 。 我 们 在 16. 5. 3 节 讨论 的 算法 就 是 属于 这 类 ， 也 
正 因为 如 此 ， 它 们 被 命名 为 Q(0) 、Sarsa(0) 或 TD(0) 。 随 着 A 趋 近 于 1， 之 前 的 更 多 步 又 被 
考虑 在 内 。 当 A =1 的 时 候 ， 所 有 之 前 的 步骤 均 被 考虑 在 内 ， 并 且 分 配给 它们 的 信 度 仅 以 每 
步 y 进行 下 降 。 在 在 线 更 新 中 ， 所 有 的 资格 值 在 每 步 之 后 立即 更 新 ; 而 在 离线 更 新 中 ， 更 新 
累积 至 片段 结束 进行 单 步 更 新 。 在 线 更 新 花费 更 多 的 时 间 但 是 收敛 的 更 快 。Sarsa(A ) 的 伪 代 
WERF 16-8。Q(A) 和 TD(A) 算 法 可 类 似 的 得 到 (Sutton 和 Bartol998) 。 





任意 初始 化 所 有 的 Q(s, a), els, a)0, Vs, a 
For 所 有 的 片段 
初始 化 = 
使 用 由 QQ 导出 的 策略 (例如 se- 贪心 ) 选 择 a 
Repeat 
执行 动作 a 观测 r 和 s" 
使 用 由 QQ 导出 的 策略 (例如 se- 贪心 ) 选 择 a 
Err+yQ(s, a’) -Q(s, a) 
els, a) 
For MAH s, a: 
Qs, a)+Q(s, a) «nbe(s, a) 





Until s 是 终止 状态 











图 16-8 Sarsa(A) W% 
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16.6 推广 


迄今 为 止 ， 我 们 假定 Q(*，a) 值 (或 者 Y(s) 值 ， 如 果 估 计 的 是 状态 值 ) 存储 在 一 个 查找 
表 中 ， 而 我 们 之 前 考虑 的 各 种 算法 称 为 表格 (tabular) 算 法 。 这 种 方法 具有 几 个 问题 : (1) 当 
状态 个 数 和 动作 个 数 很 大 时 ， 表 格 的 尺寸 会 变 得 非常 大 ; (2) 状态 和 动作 可 能 是 连续 的 ， 例 
如 ， 将 方向 盘 以 某 个 角度 进行 调整 ; 而 使 用 表格 ， 将 对 这 些 连续 值 进行 离 散 化 ， 这 可 能 会 导 
致 误差 ; (3) 当 搜索 空间 比较 大 的 时 候 ， 可 能 需要 非常 多 的 片段 才能 以 可 接受 的 准确 程度 填 
满 表 格 的 所 有 项 。 

我 们 可 以 将 上 述 问题 看 作 是 一 个 回归 问题 ， 来 取代 使 用 表格 存储 Q 值 。 这 是 一 个 监督 学 
习 问 题 ， 其 中 我 们 定义 一 个 回归 器 Q(*，a16) ， 将 * 和 a 作为 输入 并 通过 参数 向 量 9 进行 参 
数 化 来 学 习 Q 值 。 例 如 ， 这 个 回归 器 可 以 是 一 个 人 工 神经 网 络 ， 以 s 和 a 为 输入 ， 一 个 输出 ， 
并 以 9 为 连接 权重 。 

一 个 好 的 函数 逼近 器 具有 通常 意义 上 的 优势 并 可 以 解决 之 前 讨论 过 的 如 下 问题 : 一 个 好 
的 逼近 可 以 用 一 个 简单 模型 来 实现 ， 而 不 必 显 式 存 储 训练 实 例 ; 可 以 使 用 连续 输入 ; 可 以 推 
广 : 如 果 我 们 知道 相似 的 (s，a) 对 之 间 具 有 相似 的 Q 值 ， 则 我 们 能 够 对 之 前 的 情况 进行 推广 
并 产生 好 的 Q(s，a) 值 ， 即 使 这 一 状态 之 前 从 未 过 到 过 。 

为 了 可 以 对 回归 器 进行 训练 ， 我 们 需要 一 个 训练 集 。 在 Sarsa(0) 的 情况 下 ， 之 前 我 们 看 
到 ， 我 们 希望 Q(s,，a,) 的 值 最 好 接近 7,,, +yQ(s,,,，a,,1 ) 的 值 。 这 样 ， 我 们 可 以 形成 一 个 
训练 集 ， 其 中 输入 是 状态 -动作 对 (s,，a,) ， 而 要 求 的 输出 是 ,+y Q(s,,,，a,,1)。 我 们 可 
以 将 均 方 误差 写 为 : 


E'(0) = [ns + ¥ QS: a4) 7 QG,2)] (16.20) 
可 以 类 似 地 定义 Q(0) 和 TD(0) 的 训练 集 。 对 于 后 者 而 言 ， 我 们 学 习 V(s) ， 而 要 求 的 输 
出 是 mn, =-YKsvi)。 一 旦 准备 好 训练 集 ， 我 们 可 以 使 用 任何 监督 学 习 算 法 在 训练 集 上 进行 
学 习 。 
如 果 我 们 使 用 梯度 下 降 方法 ， 像 训练 神经 网 络 那样 ， 参 数 向 量 可 更 新 如 下 : 
A0 = nira + YQ(s 441) - Qs,,0,)] VO, Qs,,a,) (16.21) 
这 是 单 步 更 新 。 而 在 Sarsa( 和) ， 资 格 迹 也 被 计算 在 内 : 
A0 = nde, (16. 22) 
其 中 时 间 差 分 误差 是 : 
ô, = ra *yQG a.a) - Q(s,,4,) 
并 且 资 格 参数 向 量 更 新 如 下 : 
e, = yAe,, +V0,Q(s,,a,) (16.23) 


其 中 e 为 零 向 量 。 在 表格 算法 的 情况 下 ,会 为 每 对 状态 -动作 存储 其 资格 ， 因 为 这 些 即 为 
(存储 为 表格 ) 参 数 。 而 在 使 用 估计 子 的 情况 下 ,资格 是 和 估计 子 的 参数 相关 联 的 。 我 们 也 
注意 到 这 非常 类 似 于 用 于 稳定 反 向 传播 的 动量 法 (11. 8. 1 节 ) 。 不 同 之 处 在 于 在 动量 法 中 记 
忆 的 是 先前 的 权重 变化 ， 而 这 里 记忆 的 是 先前 的 梯度 向 量 。 
根据 计算 Q(s,，a,) 所 使 用 的 模型 ， 比 如 神经 网 络 ， 我 们 将 其 梯度 向 量 插入 (16. 23) 式 。 
理论 上 ， 任 何 回归 方法 都 可 用 于 训练 Q 函 数 ， 但 是 针对 这 一 特定 任务 还 是 有 若干 要 求 : 
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首先 ， 使 用 的 方法 应 可 以 推广 ， 也 就 是 说 ， 我 们 的 确 需要 保证 相似 的 状态 和 动作 具有 相似 的 
Q 值 。 同 时 像 在 其 他 应 用 中 一 样 ， 也 需要 对 s 和 a 有 一 个 好 的 表示 ， 使 得 相似 性 比较 明显 。 
其 次 ， 增 强 学 习 更 新 以 一 个 接 一 个 的 方式 提供 实例 ， 而 不 是 作为 一 个 整体 的 训练 集 ， 因 而 学 
习 算 法 应 当 有 能 力 进行 单个 更 新 来 对 新 的 实例 进行 学 习 并 且 不 会 忘记 以 前 已 经 学 到 的 东西 。 
例如 ， 只 要 使 用 一 个 很 小 的 学 习 率 ， 一 个 后 向 传播 多 层 感 知 器 可 通过 一 个 单独 的 实例 进行 训 
练 。 或 者 ， 可 以 收集 这 些 实例 形成 一 个 训练 集 来 进行 学 习 ， 但 是 这 种 方法 减 慢 了 学 习 速 度 ， 
因为 在 一 个 足够 大 的 样本 集 被 收集 到 之 前 不 会 进行 任何 学 习 。 

由 于 这 些 原 因 ， 使 用 局 部 学 习 器 对 Q 值 进行 学 习 似乎 是 一 个 好 主意 。 在 这 类 方法 中 ， 例 
如 径 向 基 函 数 ， 信 息 被 局 部 化 并 且 当 对 一 个 新 的 实例 进行 学 习 的 时 候 ， 学 习 器 的 一 个 局 部 被 
更 新 ， 而 不 损坏 其 他 部 分 的 信息 。 相 同 的 要 求 也 适用 于 用 V(s, | 6) 估计 状态 值 。 


16.7 部 分 可 观测 状态 


在 某 些 应 用 中 ， 智 能 主体 并 不 确切 的 知道 系统 状态 。 智 能 主体 配备 以 传感器 ， 传 感 器 返 
回 观测 (observation) ， 而 智能 主体 使 用 这 些 观 测 对 系统 状态 进行 估计 。 比 如 我 们 有 一 个 在 房 
间 内 导航 的 机 器 人 。 这 个 机 器 人 也 许 并 不 知道 其 在 房间 内 的 确切 位 置 ， 或 还 有 其 他 什么 东西 
在 房间 内 。 机 器 人 可 能 装备 了 一 个 照相 机 ， 使 用 它 来 记录 传 感 观测 。 虽 然 这 样 并 不 能 告诉 机 
器 人 其 确切 的 状态 但 是 可 以 提供 关于 其 可 能 状态 的 提示 信息 。 例 如 ， 这 个 机 器 人 可 能 只 知道 
其 右边 有 一 堵 墙 。 

这 一 场景 类 似 于 一 个 马尔 可 夫 决 策 过程 ， 不 同 之 处 是 在 执行 动作 a, 之 后 ， 新 的 状态 s,,， 
是 未 知 的 ， 但 是 有 一 个 观察 o,,, ， 它 是 一 个 关于 s, 和 a, 的 随机 函数 : plo. |s,，a,)。 这 称 
为 部 分 可 观测 马尔 可 夫 决 策 过 程 (partially observable MDP，POMDP)。 如 果 0,,, =s,,,， 则 
POMDP 简化 为 MIDP。 这 就 像 可 观测 的 和 隐 马 尔 可 夫 模 型 之 间 的 差别 ， 而 且 它 们 的 求解 也 类 
似 ; 也 就 是 说 ， 我 们 需要 从 观测 来 推断 状态 (或 状态 的 概率 分 布 ) 并 据 此 执行 动作 。 如 果 知 
能 主体 认为 其 处 于 状态 s, 的 概率 为 0.4 而 处 于 状态 s, 的 概率 为 0.6， 则 任 一 动作 的 值 就 是 
0. 4 RHE sı 状态 执行 该 动作 的 值 加 上 0. 6 乘 以 在 s, 状态 执行 该 动作 的 值 。 

马尔 可 夫 性 质 对 于 观测 而 言 并 不 成 立 : 下 一 状态 的 观测 并 不 仅仅 依赖 于 当前 的 动作 和 观 
测 。 当 只 存在 有 限 的 观测 的 时 候 ， 两 个 状态 表面 上 看 起 来 可 能 是 一 样 的 ， 但 是 实际 上 却 是 不 
同 的 ， 而 且 如 果 这 两 个 状态 要 求 执行 不 同 的 动作 ， 那 么 就 会 导致 以 累积 奖励 为 度量 的 性 能 上 
的 损失 。 智 能 主体 应 当 以 某 种 方式 将 过 去 的 轨迹 压缩 到 一 个 当前 的 单一 状态 估计 。 这 些 过 去 
的 观测 还 可 以 通过 将 观测 上 的 一 个 过 去 的 窗口 作为 策略 输入 而 被 计算 在 内 ， 或 者 使 用 递归 神 
经 网 络 (11. 12. 2 节 ) ， 在 不 忘记 过 去 的 观测 的 同时 维持 状态 估计 。 

在 任何 时 候 ， 智 能 主体 都 可 以 对 最 可 能 的 状态 进行 计算 并 执行 相应 的 动作 。 或 者 它 可 以 
执行 动作 来 收集 信息 并 减 小 不 确定 性 ， 例 如 搜索 一 个 地 标 ， 或 停 下 来 询问 方向 等 。 这 意味 着 
信息 价值 (value of information) (3.6 小 节 ) 的 重要 性 ， 并 且 事实 上 POMDP 可 以 建 模 为 动态 
(dynamic ) 影 响 图 (3.8 节 )。 智 能 主体 根据 动作 所 提供 的 信息 、 所 产生 的 奖励 大 小 以 及 它们 
如 何 改变 环境 状态 来 选择 动作 。 

为 了 保持 整个 过 程 是 马尔 可 夫 的 ， 智 能 主体 维护 一 个 内 部 的 信任 状态 (belief state) b, 来 
对 其 经 历 进行 总 结 ( 见 图 16-9) 。 智 能 主体 有 一 个 状态 估计 子 ， 它 基于 上 一 动作 a,、 当 前 观 
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测 0,,, 和 前 一 信任 状态 六 来 更 新 信任 状态 5,.,。 智 能 主体 还 有 一 个 策略 r， 与 完全 可 观测 环 
境 中 所 使 用 的 真实 状态 相反 ,策略 or 基于 这 个 信任 状态 来 产生 下 一 动作 a,,,。 信 任 状态 是 给 
定 初始 信任 状态 (在 执行 任何 动作 之 前 ) 的 环境 状态 和 智能 主体 以 往 的 观测 - 动作 历史 (没有 
遗漏 任何 可 能 提高 智能 主体 性 能 的 信息 ) 上 的 概率 分 布 。 在 这 种 情况 下 ，Q 学 习 使 用 的 是 信 
任 状态 -动作 对 的 值 ， 而 非 实际 的 状态 -动作 对 的 值 : 

Q(b,,a,) = E[r.,] + TE P(b | b, a) V(b) (16.24) 





图 16-9 在 部 分 可 观测 环境 中 ， 智 能 主体 具有 一 个 状态 估计 子 (SE) 对 内 部 
信任 状态 b 进行 维护 并 且 策略 根据 这 些 信任 状态 产生 动作 


Kaelbling, Littman 和 Cassandra 1998 给 出 了 一 个 算法 ， 但 是 很 不 幸 ， 由 于 其 复杂 度 很 
高 ， 该 算法 只 能 对 仅 有 几 十 个 状态 的 系统 精确 求解 。 否 则 ， 必 须 借助 于 价值 函数 V(b, +1) 
的 近似 求解 算法 ; Hauskrecht 2000 给 出 了 此 类 算法 的 综述 。 


16.8 注释 


关于 增强 学 习 的 更 多 信息 可 以 在 Sutton 和 Barto( 1998) 的 教科 书 中 找到 ， 该 书 讨 论 了 增 
强 学 习 的 各 个 方面 、 学 习 算法 以 及 若干 应 用 。 而 Kaelbling，Littman 和 Moore 1996 是 增强 学 
2] ff) c ifi fr 48 。 

Bertsekas 1987 以 及 Bertsekas 和 Tsitsiklis 1996 讨论 了 动态 规划 方法 ， 而 Q 学 习 可 以 看 作 
是 动态 规划 的 随机 近似 (Jaakkola 、Jordan 和 Singh 1994) 。 增 强 学 习 相 对 于 经 典 动态 规划 具 
有 两 个 优点 : 首先 ， 在 学 习 期 间 ， 增 强 学 习 可 专注 于 空间 的 重要 部 分 而 忽略 其 他 部 分 ; 其 
次 ， 增 强 学 习 可 以 使 用 函数 逼近 方法 来 表示 知识 ， 进 而 得 以 推广 和 更 快 地 学 习 。 

一 个 相关 的 领域 是 学 习 自 动机 (learning automata) (Narendra 和 Thathachar 1974) 它 是 一 个 
有 限 状 态 机 器 ， 通 过 “ 试 错 ”解决 类 似 于 K- 辟 赌博 机 问题 。 我 们 这 里 所 讨论 的 场景 同样 也 
是 最 优 控制 的 课题 ， 其 中 一 个 控制 器 (智能 主体 ) 在 设施 (环境 ) 中 执行 动作 来 最 小 化 系统 开 
销 ( 最 大 化 奖励 ) 。 

最 早 使 用 时 间 差 分 方法 的 是 Samuel GF 1959 年 的 跳棋 游戏 程序 (Sutton 和 Barto 1998 ) 。 
对 于 一 个 游戏 中 每 对 相继 的 位 置 ， 通 过 棋盘 评估 函数 对 两 个 棋盘 状态 进行 评估 ， 进 而 引发 一 
个 更 新 来 减 小 它们 之 间 的 差异 。 关 于 游戏 方面 的 研究 工作 很 多 ， 因 为 其 兼 具 易 于 定义 和 挑战 
性 的 特点 。 对 一 个 类 似 象棋 的 游戏 的 模拟 也 易于 进行 : 允许 的 棋 步 可 以 形式 化 而 且 目 标 状 态 
清晰 。 尽 管 定义 这 样 一 个 游戏 很 简单 ， 但 是 以 专家 级 别 进行 游戏 却 非常 困难 。 
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增强 学 习 最 令 人 印象 深刻 的 应 用 是 TD- Gammon 程序 。 该 程序 通过 和 自身 进行 对 弈 来 学 
习 下 西洋 双 陆 棋 (Tesauro 1995) 。 它 优 于 同样 由 Tesauro 开发 的 neruogammon 程序 ， 后 者 基于 
与 专家 对 弈 ， 以 监督 学 习 方式 进行 训练 。 西 洋 双 陆 棋 是 大 约 有 10” 种 状态 的 复杂 任务 ， 并 存 
在 由 于 掷 山 子 而 产生 的 随机 性 。 使 用 TD (A) 算 法 ，TD- Gammon 程序 在 经 过 和 自身 副本 
1 500 000 次 对 弈 后 达到 了 大 师 级 水 平 。 

另 一 个 有 趣 的 应 用 是 作业 车 间 调度 (job shop scheduling) 问 题 或 寻找 满足 时 间 和 资源 约束 
的 任务 调度 问题 (Zhang 和 Dietterich 1996 ) 。 某 些 任务 必须 在 其 他 任务 开始 之 前 完成 ， 并 且 
需要 相同 资源 的 两 个 任务 不 能 同时 进行 。Zhang 和 Dietterich 使 用 增强 学 习 很 快 找到 了 满足 约 
东 并 且 较 短 的 调度 方式 。 每 个 状态 是 一 个 调度 ， 而 动作 是 调度 更 改 ， 最 终 程序 找到 的 不 仅 是 
一 个 好 的 调度 ， 而 且 是 对 一 类 相关 调度 问题 均 有 效 的 调度 。 

最 近 提 出 了 层次 化 方法 将 问题 分 解 为 一 组 子 问题 。 其 优点 是 针对 子 问题 学 习 而 得 到 的 策 
略 可 在 多 个 问题 上 共享 ， 这 加 速 了 对 新 问题 的 学 习 速 度 ( Dietterich 2000) 。 每 个 子 问题 都 更 
简单 ， 并 且 对 它们 单独 进行 学 习 更 快 一 些 。 缺 点 是 当 对 子 问题 的 策略 进行 组 合 时 ， 所 得 的 策 
略 可 能 是 次 最 优 的 。 

尽管 增强 学 习 算 法 比 监督 学 习 算法 慢 一 些 ， 但 很 明显 它们 具有 更 广泛 的 应 用 并 具有 构建 
更 好 学 习 机 器 的 潜力 ( Ballard1997) 。 它 们 不 需要 任何 监督 ， 因 而 可 能 实际 上 更 好 一 些 ， 因 为 
不 会 被 老师 误导 。 例 如 ，Tesauro 的 TD-Gammon 程序 在 某 些 情况 下 所 走 的 棋 步 比 最 好 的 棋 手 
所 走 的 棋 步 还 要 好 。 增 强 学 习 领 域 发 展 迅速 ， 因 而 我 们 可 以 期 待 在 不 远 的 将 来 看 到 其 他 引 人 
注目 的 成 果 。 


16.9 习题 


1. 给 定 图 16-10 的 网 格 世界 ， 如 果 到 达 目 标的 奖励 为 100 并 y = 0.9， 手 工 计算 Q (s, a), 
V* (5) 以 及 最 优 策略 的 动作 。 





























图 16-10 网 格 世界 。 智 能 主体 始 于 5， 可 以 向 四 个 罗盘 方向 移动 。 目 标 状态 为 6 


2. 以 练习 1 中 相同 的 配置 ， 使 用 Q 学 习 算 法 学 习 最 优 策略 。 

3. 在 练习 1 中 ， 如 果 在 右 下 角 加 入 另 一 个 目标 状态 ， 最 优 策略 将 如 何 改变 ? 如 果 在 右 下 角 
的 状态 定义 奖励 为 - 100( 非 常 坏 的 状态 ) 将 发 生 什么 ? 

4. ERI y <1 的 替代 ， 有 y=1 并 且 所 有 中 间 状 态 ( 非 目标 ) 具 有 一 个 负 的 奖励 -c。 这 二 者 
有 何 差异 ? 


5. 在 练习 1 中 ， 假 设 到 达 目 标的 奖励 服从 均值 100 和 方差 40 的 正 态 分 布 。 同 时 假设 动作 也 


是 随机 的 ， 即 当 机 器 人 向 一 个 方向 前 进 的 时 候 ， 它 以 0.5 的 概率 向 预定 的 方向 前 进 同时 
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以 0. 25 的 概率 向 两 个 横向 方向 之 一 前 进 。 在 这 种 情况 下 ， 学 习 Q(s，a) 。 

6. 假设 我 们 想 要 使 用 TD(A) 算 法 对 状态 值 函数 Y(s) 进 行 估计 。 推 导出 其 表 值 迭 代 更 新 。 

7. 使 用 (16. 22) 式 ， 推 导出 使 用 多 层 感知 器 估计 Q 的 权重 更 新 公式 。 

8. 给 出 一 个 可 用 POMDP 建 模 的 增强 学 习 应 用 的 例子 。 定 义 其 中 的 状态 、 动 作 、 观 测 和 
奖励 。 
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附录 A WE X d$ 


我 们 简略 回顾 概率 论 原理 、 随 机 变量 概念 和 实例 分 布 。 
A. 1 概率 论 原理 


随机 试验 是 其 结果 不 能 提前 以 确定 的 方式 预测 的 试验 ( Ross 1987; Casella 和 Berger 
1990)。 所 有 可 能 的 结果 的 集合 称 作 样本 空间 S。 一 个 样本 空间 是 离散 的 ， 如 果 它 由 结果 的 
有 限 ( 或 可 数 无 限 ) 集 组 成 ; 否则 是 连续 的 。5 的 任意 子 集 是 一 个 事件 。 事 件 是 集合 ， 并 且 我 
们 可 以 谈论 它们 的 补 、 交 、 并 等 。 

概率 的 一 种 解释 是 频率 : 当 一 个 试验 在 完全 相同 的 条 件 下 不 断 重复 时 ， 对 于 任意 事件 
E， 结 果 在 E 中 的 次 数 所 占 的 比例 趋向 于 某 个 常数 值 。 这 个 常数 极限 频率 是 事件 的 概率 ， 而 
我 们 把 它 记 作 P(E)。 

有 时 ， 概 率 可 解释 成 可 信 程 度 。 例 如 ， 当 我 们 说 土耳其 赢得 2006 年 足球 世界 杯 冠军 的 
概率 时 ， 我 们 并 不 是 指出 现 的 频率 ， 因 为 2006 年 足球 世界 杯 只 进行 一 次 ， 并 且 ( 在 写本 书 
时 ) 它 还 未 进行 。 在 这 种 情况 下 ， 我 们 的 意思 是 我 们 主观 相信 该 事件 出 现 的 程度 。 由 于 是 主 
观 的 ， 因 此 对 同一 事件 ， 不 同 的 人 可 能 指派 不 同 的 概率 。 


A.1.1 概率 论 公理 


公理 确保 随机 试验 中 指派 的 概率 可 以 解释 成 相对 频率 ， 并 且 这 些 指派 符合 我 们 对 相对 频 
率 之 间 关 系 的 直观 理解 : 

1.0<P(E) «1, MRE, 是 不 可 能 出 现 的 事件 ， 则 P(E,) =0。 如 果 E, 是 一 定 出 现 的 事 
fF, W P(E,) =1。 

2. WR 5 是 包含 所 有 可 能 结果 的 样本 空间 ， 则 P(S) = 1。 


3. 如 果 EE,，,i=1，…，n， 是 互 斥 的 ( 即 如 果 它 们 不 可 能 同时 出 现 : ENE =Ø, in Jj, 
其 中 名 是 不 包含 任何 可 能 结果 的 空 事件 ) ， 则 我 们 有 
P(o&) = Y) (A.1) 


fiin, WLE' 表示 的 补 ， 由 不 在 E 中 的 S 中 所 有 可 能 的 结果 组 成 , TA ENE =Ø, 
并 且 
P(E U E) = P(E) +P(E) =1 
P(E’) =1-P(E) 
MR EM FHES, WRIA 
P(E U F) = P(E) + P(F) - P(E N F) (A.2) 
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A.1.2 条 件 概率 
P(E | F) 是 给 定 事件 F HL, 事件 E 出 现 的 概率 ， 并 由 下 式 给 出 
_P(ENF) 
P(E|F) = oo (A.3) 


知道 事件 Hi PEARS SEB) F, TE BUD REOS EOP. ER, (A.3) RM 
当 P(P)>0 时 才 有 定义 。 由 于 站 是 可 交换 的 ， 我 们 有 
P(E N F) = P(E|F)P(F) = P(F|E)PCE) 
由 此 得 到 贝 叶 斯 公式 (Bayes' formula) : 


P(F|E) = PEDRA (A.4) 
当 F, ERJEN, BMM ÙF, =S 时 
E=ÙENF, 
P(E) = rene) = SPE AP) (A.5) 
贝 叶 斯 公式 使 得 我 们 可 以 有 
P(ENF) | P(E|F,)P(F,) 
PORE) 7 e * PETF BCE SEN) 
WMR E Fl F fk tk à #4 (independent), ffi P(E |F) =P(E)， 因 此 
P(E N F) = P(E)P(F) (A.7) 
也 就 是 说 ， 严 是 否 出 现 的 知识 并 不 改变 已 出 现 的 概率 。 
A.2 随机 变量 


随机 变量 (random variable) 是 一 个 函数 ， 它 对 随机 试验 的 样本 空间 中 的 每 个 结果 指派 一 
个 数 。 


A.2. 1 概率 分 布 与 密度 函数 


对 于 任意 实数 值 ”， 随 机 变量 X 的 概率 分 布 函数 FC) E 
F(a) = PiX <a} (A. 8) 
并 且 我 们 有 


P\a<X <b} = F(b) - F(a) (A.9) 
AR X Je PS ABCA BL Et, 
F(a) = P(x) (A. 10) 


E 


Xp PC) s fce H HK (probability mass function), $E XJ P(a) 2 PIX zal, MIX WHE 
续 的 随机 变量 ， 则 P(*) 是 概率 密度 函 教 (probability density function) ， 使 得 
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F(a) = [oce (A.11) 


A. 2.2 联合 分 布 与 密度 函数 


在 特定 的 试验 中 ， 我 们 可 能 对 两 个 或 多 个 随机 变量 之 间 的 关系 感 兴趣 ， 并且 我 们 使 用 六 
和 了 的 联合 (joint) 概 率 分 布 和 密度 函数 ， 满 足 


F(x,y) = PIX <x,Y<y} (A. 12) 
单个 边缘 (marginal) 分 布 和 密度 可 以 通过 边缘 化 来 计算 ， 即 在 自由 变量 上 求 和 : 
F,(x) = PIX <x} = PIX &x,Y <œ} = F(x,o) (A.13) 
在 离散 情况 下 ， 我 们 有 
P(X =x) = Y P(x,y;) (A. 14) 
7 
而 在 连续 情况 下 ， 我 们 有 
px(x) = (px dy (A.15) 
AMR X A Y ak à th (independent), RIA 
P(x,y) = pxGOp, y) (A. 16) 
这 些 都 能 够 以 直截了当 的 方式 推广 到 多 于 两 个 随机 变量 的 情况 。 
A.2.3 条 件 分 布 
当 涉 和 了 是 随机 变量 时 , 
z =y) = PX =|lY=y PCxiy) 
Prlr(xl7) = PIX 2x|Y yl = PIY - yi * RO (4.17) 


A.2.4 贝 叶 斯 规则 


当 两 个 随机 变量 联合 分 布 ， 其 中 一 个 的 值 已 知 时 ， 另 一 个 取 给 定 值 的 概率 可 以 使 用 贝 叶 
斯 规则 计算 : 
P(x|y)P,Q) _P(x|y)Py(y) 
P.) —— P(x | 7) Py(y) 





P(y|x) = (A. 18) 
RAZ, 
_ AR x AB 
Vic 
注意 ， 分 母 通 过 在 所 有 可 能 的 y 值 上 对 分 子 求 和 (或 积分 ， 如 果 y 是 连续 的 ) 得 到 。p(y la) 
的 “形状 ”取决 于 分 子 ， 分 母 作 为 规范 化 因子 确保 p(y |x*) 的 和 为 1。 通 过 考虑 x 提供 的 信 
息 ， 贝 叶 斯 规则 使 得 我 们 将 一 个 先 验 概率 修改 为 后 验 概 率 。 
贝 叶 斯 规则 反 转 依赖 性 ， 如 果 p(x | y) 已 知 ， 使 得 我 们 可 以 计算 P(y |x)。 假 设 y 是 x 的 
“AA”, Wy 是 度 暑假 ，x 是 被 晒 黑 。 则 p(x | y) 是 已 知 某 和 人 度 暑假 ， 他 被 晒 黑 的 概率 。 这 是 


(A.19) 
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因果 (causal) (或 预测 ) 方 法 。 贝 叶 斯 规则 允许 我 们 使 用 诊断 (diagnostie ) 方 法 来 计算 p(y | x): 
即 某 人 知道 会 被 晒 黑 而 去 度 暑 假 的 概率 。P(y) 是 任何 人 去 度 暑假 的 概率 ， 而 p(x*) 是 任何 人 
被 晒 黑 的 概率 ， 包 括 度 暑假 和 不 度 暑假 的 人 。 


A.2.5 期 望 


随机 变量 X 的 期 望 (expectation) 、 期 望 值 (expeeted value) 或 均值 (mean) 记 作 E[X]， 是 
大 量 试验 中 的 平均 值 : 
EaP) PRA ABA 
E(x] =] ' (A. 20) 
foa dA Xi Heus 
它 是 加 权 平均 ， 其 中 每 个 值 被 * 取 该 值 的 概率 加 权 。 它 具有 如 下 性 质 (a，b eR) : 
E[aX +b] = aE[X] +b 
E[X +Y] = E[X] + E[Y] (A. 21) 
对 于 任意 实数 值 函 数 g(*) ， 期 望 值 是 
Xa(x)PG) ”如果 处 是 离散 的 
E[g(X)] -f ý (A. 22) 
Je(x)p(x)dx 如果 六 是 连续 的 
一 种 特例 g(x) =a", Bel X HG n BERE, REXA 
DP) PRA RBA 
E(X) = p (A. 23) 
epa de X Rik sh ah 
均值 (mean) 是 一 阶 矩 并 记 作 几 。 


A.2.6 方差 
方差 (variance) 度 量 X 在 期 望 值 附 近 的 变化 。 如 果 上 = E[X] ， 则 方差 定义 为 
Var(X) = E[(X-p)*] = ELX] -p° (A.24) 
方差 是 二 阶 和 矩 减 去 一 阶 矩 的 平方 。 方 差 记 作 ^, HAMPER (a, be): 
Var(aX +b) = a'Var(X) (A. 25) 


Nac X) Be f AEA Æ (standard deviation) ， 记 作 o。 标 准 差 具有 和 XX 相同 的 单位 ， 并 且 比方 
差 容易 解释 。 
协 方差 (covariance) 指 示 两 个 随机 变量 之 间 的 关系 。 如 果 X 的 出 现 使 得 Y 更 可 能 出 现 ， 
则 协 方差 为 正 ; 如 果 XX 的 出 现 使 得 了 更 不 可 能 发 生 ， 则 协 方差 为 负 ， 如 果 没 有 依赖 性 ， 则 
协 方差 为 0。 
Cov(X,Y) = ELQC- py) (Y - m) ] = ELXY] - pay (A. 26) 
Hih ay = ELX], p, = BLY). 一 些 其 他 性 质 是 
Cov(X,Y) = Cov(Y,X) 
Cov(X,X) = Var(X) 
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Cov(X * Z,Y) = Cov(X,Y) + Cov(Z,Y) 


Cov( X xY) = J Cov(x,,¥) (A.27) 
Var(X + Y) = Var(X) + Var(Y) + 2Cov(X,Y) (A. 28) 
Var ( Xx) = DVa(X)+ > eb) (A.29) 


UR XY Jes, WM E[XY] =E[X]E[Y] =y, H Cov(X, Y) =0。 这 样 ， 如 
JR X, 是 独立 的 ， 则 


Var( EX) = X Vax) (A.30) 
相关 性 ( correlation ) 是 一 个 规范 化 的 、 维 无 关 的 量 ， 其 值 总 是 在 -1 和 1 之 间 : 
Cor(X,¥) = — C OG D. — (A.31) 
Var(X) Var( Y) 


A.2.7 BARBER 


BEX = | 下 | 是 独立 的 同 分 布 的 (iid) 随 机 变量 的 集合 ， 每 个 都 具有 均值 上 和 有 限 方差 
o^, WX T4 60, 
Er 
dE. 


也 就 是 说 ， 随 着 N 趋向 于 无 穷 大 ，N 个 试验 的 平均 值 趋向 于 均值 。 
A. 3 特殊 的 随机 变量 
有 一 些 类 型 的 随机 变量 频繁 出 现 ， 因 此 对 它们 命名 。 


> 中 BiN > œ (A. 32) 





A.3.1 伯 努 利 分 布 


试验 进行 ， 其 结果 或 者 “成 功 ”， 或 者 “失败 ” 。 随 机 变量 X JE — 7 0/1 指示 变量 ， 并 
且 对 于 成 功 结果 取 值 1， 和 否则 为 0。P 是 试验 结果 为 成 功 的 概率 。 则 


P{X 21| =p,ii PIX 20] =1-p (A. 33) 
这 等 价 于 
P{X =i} =p'(1-p)'*,i =0,1 (A. 34) 
如 果 天 是 伯 努 利 变量 ， 则 它 的 期 望 值 和 方差 是 
E[X] = p,Var(X) = p(1- p) (A.35) 
A. 3.2 二 项 分 布 


如 果 做 了 NN 次 相同 的 、 独 立 的 伯 努 利 试验 ， 代 表 N 次 试验 中 成 功 次 数 的 随机 变量 天 是 
二 项 分 布 的 。i 次 成 功 的 概率 为 
P{X =i} = Cup (1 - p)"*,i = 0…N (A. 36) 


m FP 论 263 





WRX AHN, WWE PE AID 287 
E[X] = Np, Var(X) = Np(1- p) (A. 37) 


A.3.3 多 项 分 布 

考虑 伯 努 利 分 布 的 推广 。 其中， 取代 两 种 状态 ， 随 机 事件 的 结果 是 天 个 互 斥 、 穷 举 状 
态 之 一 ， 每 个 具有 出 现 概率 p,， 其 中 i: 忆 =1。 假 设 做 了 N 次 这 样 的 试验 ， 其 中 结果 i 出 现 
NN, 次 ,满足 N,=No W N,, Noy oe, Ni 的 联合 分 布 是 多 项 分 布 : 


POM May = NTT RT (A.38) 


当 N=1 时 是 一 种 特殊 情况 : 只 做 了 一 次 试验 。 于 是 N, JE 0/1 指示 变量 ， 其 中 只 有 一 个 
为 1， 其 余 均 为 0。(A. 38) 式 归 约 为 


x 
PCN, SN; ns Ne) = [I pt" (A. 39) 
A.3.4 均匀 分 布 


天 均匀 地 分 布 在 区 间 [a，b] 上 ， 如 果 它 的 密度 函数 由 下 式 给 定 
1 


ro = {ima wRasxsb (A. 40) 
0 否则 
如 果 针 是 均匀 的 ， 则 它 的 期 望 值 和 方差 为 

E[X] = 222 va) 2 O72 (A.41) 
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A.3.5 正 态 (高 斯 ) 分 布 


X EISEN u, HEH o? 的 正 态 或 高 斯 分 布 ， 记 作 N (4，o”) ， 如 果 它 的 密度 函数 是 
p(x) = agel- GE] -=<*<= (A. 42) 

许多 随机 现象 都 遵守 钟 形 正 态 分 布 ， 或 至 少 近似 地 遵守 正 态 分 布 ; 许多 自然 观测 都 可 以 
看 作 连 续 的 、 典 型 值 的 稍微 不 同 的 版 本 一 一 这 或 许 是 将 它 称 作 正 态 (normal) 分 布 的 原因 。 在 
这 种 情况 下 , 六 定义 典型 值 ， 而 o 定义 典型 值 附近 实例 变化 的 大 小 。 

68. 27% 的 值 落 在 (jp - 0, uo) P, 95.45% 的 值 落 在 (上 -2c, p+20) 中 ，99.73% 
的 值 落 在 (上 -30, 上 +3c) 中 。 这 样 ，P| |x-p|<30] ~0.99, RRP, MR x<p-30 
Rx>p+3o, W p(x) 0。Z 是 单位 正 态 分 布 ， 即 和 N(0,，1)( 见 图 A-1)， 并 且 它 的 密度 
记 作 








1 x 
2 = 二 A.43 
pz(x) exp [ 2 ] C » 


fan 








(404) 
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图 A-1 单位 正 态 分 布 Z 的 概率 密度 函数 


WR X-N(u, o ) 并 且 Y=aX+6b， 则 了 ~N(ap +5，a*g*)。 独 立 的 正 态 变量 的 和 也 
RESH, 其 中 p= Dw, o = Y oi. 如果 XX 是 N(x,，o*)， 则 


-e.z (A. 44) 


这 称 作 = 标准 化 。 

WX, X, oe, Xy 是 iid 随机 变量 ， 都 具有 均值 上 和 方差 o*。 则 中 心 极限 定理 表明 对 
于 大 的 N， 分 布 

X, tX, + Xy (A. 45) 

HEMFN (Nw, No’), Blin, AR X JS OR QN, pM Md, WW X TAER N MAS 
AYR RI, JEHLOC- Np) / VANP(I-P) 是 近似 单位 正 态 的 。 

中 心 极限 定理 也 用 来 在 计算 机 上 产生 正 态 分 布 的 随机 变量 。 程 序 设计 语言 具有 一 些 子 程 

n 

序 ， 返 回 [0，1] 上 均匀 分 布 的 ( 伪 ) 随 机 数 。 当 以 是 这 样 的 随机 变量 时 ， X 以 -6 近似 于 Z。 


BX ~N (pn, o). HAE 


m= (A. 46) 
HEIESH, HWX u, MITE 0° /N. 
A3.6 卡 方 分 布 
如 果 Z, 是 独立 的 单位 正 态 随 机 变量 ， 则 
Xz+ (A. 47) 


是 自由 度 为 n WR, X, Joep 
E[X] = n,Var(X) = 2n (A.48) 
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4X -N(u, o1) BE, HURRAH 








> (x - m)? 
# == r (A. 49) 
并 且 我 们 有 
w-0$ Xa (A.50) 
还 知道 m 和 S 是 独立 的 。 
A. 3.7 thai 
WR Z ~ ZA X ~X, 是 独立 的 ， 则 
Z 
T, = A.51 
D, 77 ( ) 
是 自由 度 为 上 的 二 分 布 ， 其 中 
E[T,] =0,n>1,Var(T,) = —"~,n>2 (A.52) 


n-2 
Ag nk (CIE ASAE BE— PE, -WE 0 周围 是 对 称 的 。 随 着 n 越 来 越 大 ，: 密度 变 得 越 来 越 
像 正 态 分 布 ， 区 别 是 -分 布 具有 较 粗 的 尾部 ， 表 明 比 正 态 分 布 具有 更 大 的 可 变性 。 


A.3.8 FSH 


如 果 ~X% eX, ~X 分 别 是 自由 度 为 n 和 m 的 卡 方 随机 变量 ， 则 





X,/n 
M ors X/m (4.53) 
是 自由 度 为 n* 和 m 的 下 -分 布 , 其 中 
EUN _ Mm’ (2m +2n - 4) 
ELF] = — 5, m2, Var(F,.) = (a= ae r (A. 54) 
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5x2 
cross-validation( ~ 交叉 确认 ) , 331 
ev paired F test( ~ 交叉 确认 配对 尸检 验 ) 344 
ev paired £ test( ~ 交叉 确认 配对 ! 检验) 343 


A 


AdaBoost, 361 
Adaptive resonance theory( 自 适应 共鸣 理论 ) 281 
Additive models( 加 法 模型 ) 170 

Agglomerative clustering SERA) ，147 

Analysis of variance( Jj 3 4r) ，345 

Anchor( fit) , 287 

Anova, 43 Analysis of variance 

Approximate normal test，( 近似 正 态 检验 ) , 341 
Apriori algorithm( Apriori 算法 ) ，56 


ART( 自 适应 共鸣 理论 ) ， 参 见 Adaptive resonance theory 


Artificial neural networks( 人 工 神经 网 络 ) ，229 
Association rule( 关联 规则 ) ，3 ，56 

Attribute( 属性 ) 85 

Autoassociator( 自动 关联 器 ) , 263 


B 


Backpropagation ( 后 向 传播 ) ，246 
through time( 通过 时 间 ~ ) ，268 

Backup( iB) , 382 

Backward selection( 向 后 选择 ) , 106 

Backward variable( 向 后 变量 ) ，314 

Bagging #642) , 360 

Base-learner( 基 学 习 器 ) , 352 

Basis function( 基 函数 ) , 200 
cooperative vs. competitive( 协作 与 竞争 ~ ) 293 
normalization( 规范 化 ~ ) ，291 

Basket analysis (Mj f f Hr) ，56 

Batch leaming( 批 学 习 ) , 247 

Baum- Welch algorithm( Baum- Welch 算法 ) , 318 

Bayes’ classifier( 贝 叶 斯 分 类 (器 ) ) , 43 





Bayes’ estimator( 贝 叶 斯 估计 (器 ) ) 68 
Bayes’ rule( 贝 叶 斯 规则 ) ，42，401 
Bayesian model combination( 贝 叶 斯 模型 组 合 ) ，356 
Bayesian model selection( 贝 叶 斯 模型 选择 ) 81 
Belief networks( 信念 网 络 ) ，48 

belief propagation( ~ 信念 传播 ) 53 
Belief state( 信任 状态 ) , 390 
Bellman's equation( Bellman 公式 ) ，378 
Between-class scatter matrix( 类 间 散 布 矩 阵 ) , 125 
Bias 偏 倚 ) 65 
Bias unit( 偏 倚 单 元 ) ，233 
Bias/variance dilemma( 偏 倚 / 方 差 两 难 ) 77 
Binary split( 二 元 化 分 ) ，175 
binding( 96%) , 190 
项 检验 ) ，340 
Bonferroni correction( Bonferroni 校正 ) ，348 
Boosting( 提升 ) 360 
Bootstrap( 自助 法 ) ，332 


Binomial test( 





C4.5, 179 
C4. SRules( C4. 5 规则 ) , 185 
CART, 179, 191 
Cascade correlation( 级 联 相关 ) ，260 
Cascading( 级 联 ) 366 
Case-based reasoning( 基于 案例 的 推理 ) ，169 
Causality( 因果 关系 ) ，53 
causal graph( 因果 图 ) ，49 
Central limit theorem( 中 心 极限 定理 ) ，406 
Class( 类 ) 
confusion matrix( ~ 混 少 矩阵 ) ，333 
likelihood( ~ 似 然 ) 42 
Classification( 分 类 ) , 4 


likelihood- vs. discriminant-based ( 基于 似 然 与 基于 判别 式 


的 ~), 197 
Classification tree( 分 类 树 ) ，176 
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Cluster f) , 134 

Clustering( Z), 10 
agglomerative BERE ~ ) , 147 
divisive( 438 ~), 147 
hierarchical( 层次 ~ ) 147 
online( 在 线 ~ ) , 277 

Code word( 代码 字 ) ，136 

Codebook vector( 编码 本 | 

Color quantization( 颜色 量化 ) ，135 

Common principal components( 公共 主 成 分 ) , 115 

Competitive basis functions( 3% (f) JE iC) , 293 

Competitive learning( 竞争 学 习 ) , 276 

Complete-link clustering( 全 链接 聚 类 ) , 147 

Component density( 支 密度 ) , 134. 

Compression( FEMI), 7, 136 

Condensed nearest neighbor( 精简 的 最 近邻 ) 162 

Confidence interval( 置信 区 间 ) 
one-sided( 单 便 ~ ) 336 
two-sided( 双 侧 ~ )，335 

Confidence of an association mle( 关联 规则 的 置信 度 ) , 56 

Confusion matrix( 混淆 矩阵 ) ，333 

Connection weight( 连接 权重 ) ，233 

Contingency table( 列 联 表 ) ，342 

Correlation( 相关 ) , 87 

Cost-sensitive learning( 代价 敏感 学 习 ) , 330 

Covariance matrix( 协 方差 矩阵 ) ，86 

Credit assignment( 信和 度 分 配 ) ，374 

Critic 批评 家 ) ，374 

Cross-entropy( 1.) , 209 

Cross- validation( 交叉 确认 ) , 34, 79, 330 
$x2(5x2-), 331 
K-fold( K-9f ~), 331 

Curse of dimensionality (4f (RE) KIE), 160 





D 


Decision node( 决策 节点 ) 173 
Decision region 决策 区 域 ) 45 
Decision tree( 决策 树 ) ，173 
multivariate( 多 元 ~ ) 190 
omnivariate( 杂 变 量 ~ ) ，193 
sof( 软 ~ ) ，301 
univariate( 单 变量 ~), 175 
Delve repository( Delve 知识 库 ) , 15, 349 
Dendrogram( 系统 树 图 ) ，148 
Density estimation( 密度 估计 ) ，10 
Dichotomizer( 两 分 器 ) , 45 


Dimensionality reduction ( 维度 归 约 ) 
nonlinear( 非 线性 ~ ) 265 
Directed acyclic graph 有 向 无 环 图 ) , 48 
Discount rate( 折扣 率 ) , 377 
Discriminant( 判别 式 )，5 
function( ~ 函数 ) 45 
linear( 线 性 ~), 95 
quadratie( 二 次 ~), 93 
Discriminant adaptive nearest neighbor ( 判别 式 自 适应 最 近 
邻 )，162 
Discriminant-based classification ( 基于 判别 式 的 分 类 ) ，197 
Divisive clustering( ARR), 147 
Doubt 不 确定 (实例 ) ) , 21 
Dynamic node creation ( 动态 节点 创建 ) 260 
Dynamic programming( 动态 规划 ) , 379 


E 


ECOC, $3 Error-correcting output codes 
Eigendigits( 本 征 数字 ) ，114 
Eigenfaces( 本 征 面孔 ) 114 
Eligibility trace( 资格 迹 ) ，385 
EM ， 参 见 Expectation- Maximization 
Emission probability( 发 射 概率 ) ，309 
Empirical error( 经 验 误差 ) , 20 
Ensemble( 集 成 ) ，354 
Entropy (i), 176 
Episode( # Bt), 377 
Epoch ( 周期 ) 247 
Emor( 错误， 误差) 
type 1( 第 一 类 ~), 338 
type II( 第 二 类 ~), 338 
Error-correcting output codes( 纠 错 输出 码 ) ，357 
Euclidean distance( 欧 氏 距离 ) , 96 
Evidence( i£ BK) , 42 
Example( 实例 ) ，85 
Expectation- Maximization( 期 望 最 大 化 ) , 140 
supervised( 监督 的 ~ ) 295 
Expected error rate( 期 望 误差 率 ) ，328 
Expected utility( 期 望 效用 ) ，46 
Explaining away( 解释 远离 ) 50 
Extrapolation( 外 推 ) ，29 


FA, #2 Factor analysis 
Factor analysis( 因子 分 析 ) , 116 
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Feature( 特征 ) 85 

extraction( ~ SR), 106 

selection( ~ 选择) 106 
Finite-horizon( 有 限 阶段 ) ，377 
First-order rule( 一 阶 规则 ) ，189 
Fisher's linear discriminant( 费 希 尔 线 性 判别 式 ) ，125 
analysis( 柔性 判别 式 分 析 ) ，115 
Floating search( 浮动 搜索 ) 107 
Foil( Foil( 算法 ) ) , 187 
Forward selection( 向 前 选择 ) ，106 
Forward variable( 正 向 变量 ) ，312 
Forward-backward procedure( 正 反 向 过 程 ) ，312 
Fuzzy k-means( 模糊- 均值 ) ，150 
Fuzzy membership function ( BMR R), 291 
Fuzzy rule( 模糊 规则 ) , 291 





Flexible discrim 


G 


Generalization ( J^ , 2246), 20, 33 

Generalized linear models( 广义 线性 模型 ) ，227 

Gini index( Gini 指数 ) ，177 

Gradient descent( 梯 度 下 降 ) , 207 
stochastic( 随机 ~ ) ，237 

Gradient vector( 梯度 向 量 ) ，207 

Graphical models( 图 形 模型 ) ，48 

Group( 分 组 )，134 


H 


Hamming distance( 汉 明 距离 ) ，161 

Hebbian learning( Hebbian 学 习 )，279 

Hidden layer( 隐藏 层 ) 242 

Hidden Markov model( 隐 马 尔 可 夫 模 型 ) 309 
input-output( 输入 -输出 ~ ) 321 
left-to-right( 自 左 向 右 ~), 322 

Hidden variables( 隐藏 变量 ) , 54 





Hierarchical cone( 层次 锥 体 ) ，256 
Hierarchical mixture of experts( 层次 混合 专家 模型 ) 300 
Higher-order term( 高 阶 项 ) ，199 
Hint( AR) , 257 
Histogram( 直方 图 ) 155 
HMM( 隐 马尔 可 夫 模 型 ) ， 参 见 Hidden Markov model 
Hybrid learning( 混合 学 习 ) , 287 
Hypothesis( 假设 ) , 19 
class( ~ 3$), 19 
most general( 最 一 般 的 ~ ) 20 


most specific 最 特殊 的 ~ ) 20 
Hypothesis testing( 假设 检验 ) 338 


ID3(ID3( 算 法 ) ) 179 
IF-THEN rules( IF-THEN 规则 ) , 185 


lid (independent and identically distributed) (独立 同 分 布 ) ，35 


Ill- posed ( 不 适 定 的 ) ，32 

Impurity measure( 不 纯度 度量 ) 176 
Imputation( 估算 ) , 87 

Inductive bias( J 48 iff) , 32 

Inductive logic programming( 归纳 逻辑 程序 设计 ) , 190 
Infinite-horizon( 无 限 阶段 ) , 377 

Influence diagrams( 影响 图 ) ，55 

Initial probability( 初始 概率 ) ，306 
Input( 输 入 ) , 85 

Input representation( 输入 表示 ) ，17 
Input-output HMM( 输入 -输出 HMM) ，321 
Instance( 实例 ) ，85 

Instance-based learning( 基于 实例 的 学 习 ) ，154 
Interpolation( 插值 ) ，29 

Interpretability( 可 解释 性 ) ，185 

Interval estimation( [X fü] ffi) ，334 

Irep( Imp( 算 法 ) ) 187 


J 


Job shop scheduling( 作业 车 间 调度 ) 392 
Junction tree( 结 树 ) 53 


K 
K-armed bandit( K VE WESEL) , 375 
K-fol( K 9j) 
eross-validation( ~ 交叉 确认 ) , 331 





ev paired t test( ~ 折 交 叉 确认 配对 :检验 ) , 343 
‘k-means clustering( 人 -均值 聚 类 ) ，137 
fuzzy( 模糊 ~ ) 150 
online( 在 线 ~ ) 277 
k-nearest neighbor( 上 -最 近邻 ) 
classifier( ~ 分 类 ) ，162 
density estimate( ~ 估计 ) ，159 
smoother( ~ JEH), 167 
k-nn, $J k-nearest neighbor 
Karhunen- Lobve expansion( Karhunen- Lobve 展开 ) , 115 
Kernel estimator 核 估计 ) ，157 
Kemel function( 核 函数 ) 157, 224 
Kernel machine( 核 机 器 ) ，224 
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Kernel smoother( 核 光 滑 ) ，166 
Knowledge extraction( 知识 提取 ) ，7，186，290 
Kolmogorov complexity( Kolmogorov 复杂 度 ) ，81 


È 


Latent factors 潜在 因子 ) ，116 

Lateral inhibition( 横向 抑制 ) ，278 

LDA， 参 见 Linear discriminant analysis 

Leader cluster algorithm 领导 者 聚 类 算法 ) 138 

Leaf node( 叶 节点 ) ，173 

Learning automata( 学 习 自动 机 ) ，392 

Learning vector quantization( 学 习 疝 量 量 化 ) ，296 

Least squares estimate( 最 小 二 乘 估计 ) , 74 

Leave-one-out( 留 一 ) ，331 

Left-to-right HMM( 自 左 向 右 HMM), 322 

Level of significance( 显著 水 平 ) ，338 

Levels of analysis( 分 析 层 面 ) , 230 

Likelihood( 似 然 ) ，62 

Likelihood ratio( 似 然 率 ) ，57 

Likelihood- based classification ( 基于 似 然 的 分 类 ) ，197 

Linear classifier( 线性 分 类 器 ) , 95, 204 

Linear discriminant( 线性 判别 式 ) , 95, 198 
analysis( ~ 分 析 )，124 

Linear opinion pool( 线 性 判断 组 合 ) , 354 

Linear regression ( 线性 回归 ) ，74 
multivariate( 多 元 ~ ) ，100 

Linear separability( 线性 可 分 性 ) ，203 

Local representation( 局 部 表示 ) ，284 

Locally weighted running line smoother( 局 部 加 权 移动 线性 光 

M), 167 

Loess, $3 Locally weighted running line smoother 

Log likelihood( 对 数 似 然 ) ，62 

Log odds( 对 数 几率 )，57，205 

Logistic discrimination( 逻辑 斯 谤 判别 式 ) ，208 

Logistic function ( 3E HW ir RC) , 206 

Logit( 分 对 数 ) , 205 

Loss function( 损失 函数 ) 43 

LVQ， 参 见 Learning vector quantization 





Mahalanobis distance( Mahalanobis 距离 ) ，88 
Margin( 边缘 ) , 218, 362 
Markov decision process( 马尔 可 夫 决策 过 程 ) 377 
Markov mixture of experts( 马尔 可 夫 混合 专家 模型 ) 321 
Markov model( 马尔 可 夫 模型 ) 306 

hidden( 隐 ~), 309 





leaming( 学 习 ~ ), 308, 317 
observable( 可 观测 的 ~ ) 307 
Maximum a Posteriori estimate( 最 大 化 后 验 概率 ) ，68 
Maximum likelihood estimation( 最 大 似 然 估 计 ) ，62 
McNemar's test( McNemar 检验 ) ，342 
MDP， 参 见 Markov decision process 
MDS, #2 Multidimensional scaling 
Mean square error( 均 方 误差) 65 
Mean vector( 均值 向 量 ) , 86 
Memory- based learning( 基于 记忆 的 学 习 ) 154 
Minimum description length( 最 大 描述 长 度 ) ，81 
Mixture components( 混合 分 支 ) ，134 
Mixture density( 混合 密度 ) ，134 
Mixture of experts( 混合 专家 模型 ) 296, 363 
(竞争 的 ~)，300 
(协作 的 ~), 299 
hierarchical( 层次 的 ~ ) ，300 
Markov( BAR SEX) , 321 
Mixture of factor analyzers( 混合 因子 分 析 方法 ) 145 
Mixture of mixtures( 混合 的 混合 (密度 ) ) , 146 
Mixture of probabilistic principal component analyzers( 混合 概 
率 主 成 分 分 析 ) ，145 
Mixture proportion( 混合 比例 ) , 134 
Model combination( 模型 组 合 ) 
multiexpert( 多 专家 ~ ) ，353 
multistage( 多 级 ~ ) 354 
Model selection ( 模型 选择 ) ，33 
MoE, #2 Mixture of experts 
Momentum( 动量 ) , 253 
Multidimensional scaling( 多 维 定 标 ) ，121 
nonlinear( 非 线性 ~ ) ，283 
using MLP( 使 用 MLP - ), 265 
Multilayer perceptrons( 多 层 感知 器 ) , 242 
Multiple comparisons( 多 重 比较 ) ，348 
Multivariate linear regression( 多 元 线性 回归 ) ，100 
Multivariate polynomial regression( 多 元 多 项 式 回归 ) 101 
Multivariate tree( 多 变量 /元 树 ) ，190 





N 


Naive Bayes’ classifier( 朴素 贝 叶 斯 分 类 ) , 53, 95 

Naive estimator( 朴素 贝 叶 斯 估计 ) , 155 

Nearest mean classifier( 最 近 均值 分 类 (器 ) ) , 96 

Nearest neighbor classifier( 最 近邻 分 类 (器 ) , 162 
condensed 精简 的 ~), 162 

Negative examples( 负 例 ) ，17 

Neuron( 神经 元 ) 229 
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Regression( 回归 ) , 8, 29 
linear( 线性 ~ ) 74 
polynomial( EHR ~), 75 
polynomial multivariate( 多 项 式 多 元 ~ ) 101 
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Regression tree( 回归 树 ) ，180 
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Statlib repository( Statlib 知识 库 ) , 15 

Statlog( Statlog( 项目) ) ，349 
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